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深度 学 习 的 浪潮 已 经 测 涌 洽 涯 了 一 段 时 间 了 ， 市 面 上 相关 的 图 书 也 已 经 
出 版 了 很 多 。 其 中 ， 既 有 知名 学 者 伊 恩 ' 古 德 费 治 (Ian Goodfellow ) 55 Ad& 
写 的 系统 介绍 深度 学 习 基 本 理论 的 《深度 学 习 》， 也 有 各 种 介绍 深度 学 习 框 
染 的 使 用 方法 的 入 门 书 。 你 可 能 会 问 ， 现 在 再 出 一 本 关于 深度 学 习 的 书 ， 是 
不 是 “为 时 已 晚 ?? 其 实 并 非 如 此 ， 因 为 本 书 考察 深度 学 习 的 角度 非常 独特 ， 
它 的 出 版 可 以 说 是 “ 千 呼 万 唤 始 出 来 ”。 

本 书 最 大 的 特点 是 “ 训 解 ”了 深度 学 习 的 底层 技术 。 正 如 美国 物理 学 家 
理 查 德 . 费 曼 (Richard Phillips Feynman) Jr ii: “What I cannot create, I 
do not understand.” 只 有 创造 一 个 东西 TARRE Fale, ASE 
是 教 你 如 何 创建 深度 学习 模型 的 一 本 书 。 并 且 ， 本 书 不 使 用 任何 现 有 的 深度 
学 习 框 名 ， 尽 可 能 仅 使 用 最 基本 的 数学 知识 和 Python 库 ， 从 去 讲解 深度 学 
习 核 心 问 题 的 数学 原理 ， 从 去 创建 一 个 经 典 的 深度 学 习 网 络 。 

本 书 的 日 文 版 曾 一 上 度 占 据 了 东 泵 大 学 校内 书店 (本 乡 校区 ) 理 工 类 图 书 
的 畅销 书 榜 首 。 各 类 该 者 阅 谈 本 书 ， 均 可 有 所 受益 。 对 于 非 AI 方向 的 撤 术 
人 员 ， 本 书 将 大 大 降低 入 门 深度 学 习 的 门槛 ;对 于 在 校 的 大 学 生 、 研 究 生 ， 
本 书 不 失 为 学 习 深 度 学 习 的 一 本 好 教材 ;即便 是 对 于 在 工作 中 已 经 熟练 使 用 
框架 开发 各 类 深度 学 习 模 型 的 读者 ， 也 可 以 从 本 书 中 获得 新 的 体会 。 

本 书 从 开始 翻译 到 出 版 ， 前 前 后 后 历时 一 年 之 久 。 译 者 翻译 时 力求 忠于 
EX, 表达 简练 。 为 了 保证 翻译 质量 ， 每 翻译 完 一 革 后 ， 详 者 都 会 放置 一 段 






































时 间 ， 再 重新 检查 一 遍 。 图 灵 公 司 的 专业 编辑 们 又 进一步 对 译 稿 进行 了 全 而 

细致 的 校对 ,提出 了 许多 宝贵 意见 ,在 此 表示 感谢 。 但 是 , 由 于 译 者 才 琉 学 浅 ， 

书 中 难免 存在 一 些 错误 或 玖 漏 ， 妨 请 读者 批评 指正 ,以 便 我 们 在 重印 时 改正 。 
最 后 ， 希 望 本 书 的 出 版 能 为 国内 的 AI 技术 社区 添砖加瓦 ! 
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科 约 电影 般 的 世界 已 经 变 成 了 现实 一 — ALS Be Ee H ORG EE. Bids 
象棋 的 冠军 , BATE TTY Le | 智能 手机 不 仅 可 以 理解 人 们 说 的 话 ， 
还 能 在 视频 通话 中 进行 实时 的 “机 融 翻 译 ”; 配备 了 摄像 头 的 “ 目 动 防 撞 的 车 ” 
保护 着 人 们 的 生命 安全 ， 目 动 驾 驶 技术 的 实用 化 也 为 期 不 远 。 环 顾 我 们 的 四 
周 ， 原 来 锌 认为 只 有 人 类 才能 做 到 的 事情 ， 现 在 人 工 智 能 都 能 肋 无 差错 地 完 
成 ， 甚 至 试 图 超越 人 类 。 因 为 人 工 智能 的 发 展 ， 我 们 所 处 的 世界 正在 逐渐 变 
成 一 个 轿 新 的 世界 。 

在 这 个 发 展 速度 惊人 的 世界 背后 ， 闪 度 学 习 扩 术 在 发 挥 肴 重要 作用 。 对 
TREFI, MAKWAPA R DARKE, MERN EIERN, 
BAMUNEEILE EAA IRR. Scb E, WEI ANAR hN 
在 报纸 和 杂志 中 ， 备 受 关注 ， 就 连 一 般 大 众 也 部 有 所 耳闻 。 

本 书 就 是 一 本 以 诬 度 竺 习 为 主题 的 书 ， 目 的 是 让 读者 尽 可 能 深 入 地 理解 
深度 学 习 的 技术 。 因 此 ， 本 书 握 出 了 “从 零 开 始 ” 这 个 概念 。 

本 书 的 特点 是 通过 实现 浴 度 学 习 的 过 程 ， 来 禹 近 闪 度 学 习 的 本 质 。 通 过 
实现 深度 学 习 的 程序 ， 尺 可 能 无 遗漏 地 介绍 深度 学 习 相 关 的 技术 。 男 外 ， 本 
书 还 提供 了 实际 可 运行 的 程序 ， 供 读者 自己 进行 各 种 各 样 的 实验 。 

为 了 实现 深度 学 习 ， 我 们 需要 经 历 很 多 考验 ， 花 费 很 长 时 间 ， 但 是 相应 
地 也 能 学 到 和 发 现 很 多 东西 。 而 且 ， 实 现 深 度 学 习 的 过 程 是 一 个 有 趣 的 、 令 
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人 兴奋 的 过 程 。 布 望 读者 通过 这 一 过 程 可 以 熟悉 深度 学 习 中 使 用 的 技术 ， 并 
能 从 中 感受 到 快乐 。 

目前 ,并 度 学 习 活 路 在 世界 上 各 个 地 方 。 在 几乎 人 手 一 部 的 知 能 手机 中 、 
开局 目 动 驾 驶 的 汽车 中 、 为 Web WR Fe 523573 B9 op ae, TREES OD ABLE 
发 挥 看 作用 。 此 时 此 刻 ， 就 在 很 多 人 没有 注意 到 的 地 方 ， 座 度 学 习 正 在 默默 
地 发 挥 看 其 功能 。 今 后 ， 深 度 学 习 努 必 将 现 加 活路 。 为 了 让 读者 理解 深度 学 
习 的 相关 技术 ， RSC BITRE I RT, SP AB. 











本 书 的 理念 

本 书 是 一 本 讲解 深度 学 习 的 书 ,将 从 最 基础 的 内 容 开 始 讲 起 ， 逐 一 介绍 
理解 深度 竺 习 所 知 的 知识 。 书 中 尽 可 能 用 平实 的 二 言 来 介绍 诬 上 度 学 习 的 概念 、 
特征 、 工 作 原理 等 内 容 。 不 过 ， 本 书 并 不 是 只 介绍 技术 的 概要 ， 而 是 于 在 让 
读者 更 深入 地 理解 深 度 学 习 。 这 是 本 书 的 特色 之 一 。 

那么 ， 怎 么 才能 更 次 入 地 理解 猴 度 学 习 呢 ? 在 笔 痢 看 来 ， 最 好 的 办 法 就 
是 杀 目 实现 。 从 零 开 始 编写 可 实际 和 运行 的 程序 ， 一 边 看 源 代 码 ， 一 边 思 考 。 
笔者 坚信 ， 这 种 做 法 对 正确 理解 次 度 学 习 ( 以 及 那些 看 上 去 很 高 级 的 技术 ) 
是 很 重要 的 。 这 里 用 了 “从 和 零 开 始 ” 一 词 ， 表 示 我 们 将 尽 可 能 地 不 依赖 外 部 
的 现成 品 ( 库 、 工 具 等 ) 也 就 是 说 ， 本 书 的 目标 是 ， 尽 量 不 使 用 内 容 不 明 的 
轩 盒 ， 而 是 从 目 己 能 理解 的 最 基础 的 知识 出 发 ， 一 步 一 步 地 实现 最 先进 的 这 
度 学 习 技 术 。 并 通过 这 一 实现 过 程 ， 使 读者 加 次 对 深度 学 习 的 理解 。 

如 条 把 本 书 比 作 一 本 关于 汽车 的 书 ， 那 么 本 书 并 不 会 教 你 怎么 开车 ， 其 
看 眼 点 不 是 汽车 的 轨 驶 方法 ， 而 是 要 让 谈 者 理解 汽车 的 原理 。 为 了 让 读者 理 
解 汽车 的 结构 ， 必 须 打 开 汽 车 的 引擎 兽 ， 把 零件 一 个 一 个 地 拿 在 手 里 观察 ， 
并 演 试 操作 它们 。 之 后 ， 用 尽 可 能 简单 的 形式 提取 汽车 的 本 质 ， 并 组 装 汽 车 
模型 。 本 书 的 目标 是 ， 通 过 制造 汽车 模型 的 过 程 ， 让 读者 感受 到 上 自己 可 以 实 
际 制 造 出 汽车 ， 并 在 这 一 过 程 中 束 悉 汽车 相关 的 技术 。 

为 了 实现 深度 学 习 ， 本 书 使 用 了 Python 这 一 编程 语言 。Python 非常 受 
欢迎 ,初学 者 也 能 轻松 使 用 。Python 尤其 适合 用 来 制作 样品 (原型 )， 使 用 


















































Python 可 以 立刻 尝试 突 然 想 到 的 东西 ， 一 边 观察 结果 ， 一 边 进行 各 种 各 样 
的 实验 。 本 书 将 在 讲解 次 度 学 习 理论 的 同时 ， 使 用 Python 实现 程序 ， 进 行 
各 种 实验 。 





在 光 看 数学 式 和 理论 说 明 无 法 理解 的 情况 下 ， 可 以 尝试 阅读 源 代码 
并 运 d 
就 阅读 源 代 码 来 理解 技术 的 流程 ， 这 样 的 事情 相信 很 多 人 都 经 历 

本 书 通 ea tid 
的 书 。 书 中 会 出 现 很 多 数学 式 , 但 同时 也 会 有 很 多 程序 员 视 角 的 源 代码 。 





本 书面 向 的 读者 
本 书 旨 在 让 谈 者 通过 实际 动手 操作 来 次 入 理解 诛 度 和 学习。 为 了 明确 本 书 
的 读者 对 象 ， 这 里 将 本 书 涉 及 的 内 容 列 誉 如下。 





e 使 用 Python， 尽 可 能 少 地 使 用 外 部 库 ， 从 零 开 始 实现 深度 学 习 的 程序 。 

e 为 了 让 Python 的 初学 者 也 能 理解 ， 介 绍 Python 的 使 用 方法 。 

e 提供 实际 可 运行 的 Python 源 代码 ， 同 时 提供 可 以 让 读者 亲自 实验 的 
学 习 环 境 。 

e 从 简单 的 机 器 学 习 问 题 开始 ， 最 终 实现 一 个 能 高 精度 地 识别 图 像 的 系统 。 

e 以 简明 易 懂 的 方式 讲解 深度 学 习 和 和 神经 网 络 的 理论 。 

e 对 于 误差 反 向 传播 法 、 卷 积 运算 等 乍 一 看 很 复杂 的 技术 ， 使 读者 能 够 
在 实现 层面 上 理解 。 

e 介绍 一 些 学 习 深 度 学 习 时 有 用 的 实践 技巧 ， 如 确定 学 习 率 的 方法 、 权 
重 的 初始 值 等 。 

e 介绍 最 近 流 行 的 Batch Normalization、Dropout、Adam 等 ， 并 进行 
实现 。 

e 讨论 为 什么 深度 学 习 表 现 优 异 、 为 什么 加 深层 能 提高 识别 精度 、 为 什 
么 隐藏 层 很 重要 等 问题 。 

e 介绍 自动 破 驶 、 图 像 生 成 、 强 化 学 习 等 深度 学 习 的 应 用 案例 。 


~ 
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本 书 不 面向 的 读者 
明确 本 书 不 适合 什么 样 的 读者 也 很 重要 。 为 此 ， 这 里 将 本 书 不 会 涉及 的 
内 容 列 举 如 下 。 


e 不 介绍 深度 学 习 相 关 的 最 新 研究 进展 。 

e 不 介绍 Caffe、TensorFlow、Chainer 等 深度 学 习 框 架 的 使 用 方法 。 

e 不 介绍 深度 学 习 的 详细 理论 ， 特 别 是 神经 网 络 相 关 的 详细 理论 。 

e 不 详细 介绍 用 于 提高 识别 精度 的 参数 调 优 相关 的 内 容 。 

e 不 会 为 了 实现 深度 学 习 的 高 速 化 而 进行 GPU 相关 的 实现 。 

e 本 书 以 图 像 识 别 为 主题 ， 不 涉及 自然 语言 处 理 或 者 语音 识别 的 例子 。 





综 上 ， 本 书 不 涉及 最 新 研究 和 理论 细节 。 但 是 ， 读 完 本 书 之 后 ， 读 者 
应 该 有 能 力 进 一 步 去 阅读 最 新 的 论文 或 者 神经 网 络 相关 的 理论 方面 的 技 
术 书 。 
| 本 书 以 图 像 识别 为 主题 ， 主 要 学 习 使 用 深度 学 习 进 行 图 像 识别 时 
Me | ”所 需 的 技术 。 自 然 语言 处 理 或 者 语音 识别 等 不 是 本 书 的 讨论 对 象 。 








本 书 的 阅读 方法 

学 习 新 知识 时 ， 只 听 别 人 讲解 的 话 ， 有 时 会 无 法 理解 ， 或 者 会 立刻 忘记 。 
正如 “不 闻 不 若 闻 之 ， 闻 之 不 若 见 之 ， 见 之 不 若 知 之 ， 知 之 不 车 行 之 ” ,在 
学 习 新 东西 时 ,没有 什么 比 实践 更 重要 了 。 本 书 在 介绍 某 个 主题 时 ， 都 细心 
地 准备 了 一 个 可 以 实践 的 场所 一 一 能 够 作为 程序 运行 的 源 代码 。 

本 书 会 提供 Python 源 代码 ， 读 者 可 以 自己 动手 实际 运行 这 些 源 代码 。 
在 阅读 源 代 码 的 同时 ， 可 以 尝试 去 实现 一 些 自己 想到 的 东西 ， 以 确保 真正 














(D 出 自 荀子 《 儒 效 篇 六 
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理解 了 。 为 外 ， 读 者 也 可 以 使 用 本 书 的 源 代码 ， 尝 试 进行 各 种 实验 ， 反 复 
TAFE o 

本 书 将 沿 着 “理论 说 明 ” 和 “Python 实现 ”两 个 路 线 前 进 。 因 此 ， 建 议 
读者 准备 好 编程 环境 。 本 书 可 以 使 用 Windows、Mac、Linux 中 的 任何 一 个 
RB. KF Python 的 安装 和 使 用 方法 将 在 第 1 章 介 绍 。 另 外 ， 本 书 中 用 到 
的 程序 可 以 从 以 下 网 址 下 载 。 


http://www.ituring.com.cn/book/1921 


让 我 们 开始 吧 
通过 前 面 的 介绍 ,希望 读 者 了 解 本 书 大 松 要 讲 的 内 容 ， 产 生 继续 阅读 的 
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Tcr HH BUT RERE I AR, FAB DO EA. Scb E, 
使 用 这 些 库 的 话 ， 可 以 轻松 地 运行 次 度 学 习 的 程序 。 那 么 ， 为 什么 我 们 还 要 
FAEN TA AST AR SAE JE? 一 个 理由 就 是 ， 在 制作 东西 的 过 程 中 
可 以 学 到 很 多 。 

在 制作 东西 的 过 程 中 ,会 进行 各 种 各 样 的 实验 ， 有 时 也 会 卡 住 ， 抱 看 脑 
袋 想 为 什么 会 这 样 。 这 种 费时 的 工作 对 次 刻 理解 技术 而 言 是 宝 贯 的 财富。 像 
这 样 认 真 花费 时 间 获 得 的 知识 在 使 用 现 有 的 库 、 阅 读 最 新 的 文章 、 创 建 原创 
的 系统 时 都 大 有 用 处 。 而 且 最 重要 的 是 ,制作 本 里 就 是 一 件 快乐 的 事情 。( 还 
需要 快乐 以 外 的 其 他 什么 理由 吗 ? ) 

既然 一 切 都 准备 好 了 ， 下 面 就 让 我 们 踏 上 实现 深度 学 习 的 旅途 吧 ! 




















表述 规则 
本 书 在 表述 上 采用 如 下 规则 。 


粗 体 字 ( Bold) 
用 来 表示 新 引入 的 术语 、 强 调 的 要 点 以 及 关键 短语 。 





ij 


x | BIE 


6 = (Constant Width) 

用 来 表示 下 面 这 些 信 息 : 程序 代码 、 命 令 、 序 列 、 组 成 元 素 、 语 句 选 项 、 
分 支 、 变 量 、 属 性 、 键 值 、 函 数 、 类 型 、 类 、 命 名 空间 、 方 法 、 模 块 、 属 性 、 
BAN. (A. WAR. FF, SEPA BS XML 标签 、HTME 标签、 宏 、 文 件 
的 内 容 、 来 自命 令 行 的 输出 等 。 奉 在 其 他 地 方 引 用 了 以 上 这 些 内 容 (如 变量 、 
函数 、 关 键 字 等 )， 也 会 使 用 该 格式 标记 。 








等 宽 粗 体 字 (Constant Width Bold) 
用 来 表示 用 户 输入 的 命令 或 文本 信息 。 在 强调 代码 的 作用 时 也 会 使 用 该 
格式 标记 。 





So RAS (Constant Width Italic) 
FAR Fea OAR s HL ER EE FR s 





用 来 表示 提示 、 启 发 以 及 某 些 值 得 深究 的 内 容 的 补充 信息 。 


程序 库 中 存在 的 bug 或 时 常会 发 生 的 问题 等 警告 信息 ， 引 | 








表示 
(SPA 起 读者 对 该 处 内 容 的 注意 。 
| al h OA 
读者 意见 与 咨询 








虽然 笔者 已 经 尽 最 大 努力 对 本 书 的 内 容 进行 了 验证 与 确认 ， 但 仍 不 免 在 
某 些 地 方 出 现 错 误 或 者 容易 引起 误解 的 表达 等 ， 给 读者 的 理解 市 来 困扰 。 如 
果 读 者 过 到 这 些 问 题 ,， 请 及 时 告知 ， 我 们 在 本 书 重印 时 会 将 其 改正 ， 在 此 先 
表示 不 胜 感激 。 与 此 同时 ， 也 而 望 读者 能 够 为 本 书 将 来 的 修订 提出 中 肯 的 建 
以 。 本 书 编辑 部 的 联系 方式 如 下 。 
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株式 会 社 O’ Reilly Japan 
电子 邮件 japan@oreilly.co.jp 





本 书 的 主页 地 址 如 下 。 
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第 1 章 
Python AT] 


Python 这 一 编程 语言 已 经 问世 20 多 年 了 ， 在 这 期 间 ，Python 不仅 完成 
了 目 身 的 进化 , 还 获得 了 大 量 的 用 户 。 现 在 , Python 作为 最 具 人 气 的 编程 语言 ， 
受到 了 许多 人 的 喜爱 。 

接 下 来 我 们 将 使 用 Python 实现 深 度 学 习 系 统 。 不 过 在 这 之 前 ， 本 章 将 简 
单 地 介绍 一 下 Python ， 看 一 下 它 的 使 用 方法 。 已 经 掌握 了 Python、NumPy、 
Matplotlib 等 知识 的 读者 ， 可 以 跳 过 本 章 ， 直 接 阅 读 后 面 的 章节 。 














1.1 Python 是 什么 


Python 是 一 个 简单 、 易 谈 、 吻 记 的 编程 语言 ， 而 且 是 开源 的 ， 可 以 免 
费 地 自由 使 用 。Python 可 以 用 类 似 英 语 的 语法 编写 程序 ， 编 译 起 来 也 不 费 
Jj, 因此 我 们 可 以 很 轻松 地 使 用 Python。 特 别 是 对 首次 接触 编程 的 人 士 来 说 ， 
Python 是 最 合适 不 过 的 语言 。 事 实 上 ,很 多 高 校 和 大 专 院 校 的 计算 机 课程 
均 采 用 Python 作 为 入 门 语 言 。 

此 外 , 使 用 Python 不 仅 可 以 写 出 可 读 性 高 的 代码 , 还 可 以 写 出 性 能 高 (处 
理 速度 快 ) 的 代码 。 在 需要 处 理 大 规模 数据 或 者 要 求 快速 啊 应 的 情况 下 ,使 
用 Python 可 以 稳妥 地 完成 。 因 此 ，Python 不 仅 受到 初学 者 的 喜爱 ， 同 时 也 
受到 专业 人 士 的 喜爱 。 实 际 上 ，Google、Microsoft 、EFacebook 等 战斗 在 IT 
行业 最 前 沿 的 企业 也 经 常 使 用 Python。 
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PRÉ. TERE a, Reale ep Lae. BOP el, Python 也 被 
KEH, Python be Y ia TEBEZL AR, Geta a NumPy, SciPy 等 优秀 的 数 
值 计 算 、 统 计 分 析 库 ， 在 数据 科学 领域 占有 不 可 动摇 的 地 位 。 深 度 学 习 的 
框架 中 也 有 很 多 使 用 Python 的 场景 ， 比 如 Cafte、TensorFlow 、Chainer、 
Theano 等 著名 的 深度 学 习 框 以 都 提供 了 Python 接口 。 因 此 ， 学 习 Python 
对 使 用 深度 学 习 框架 大 有 益处 。 

综 上 ，Python 是 最 适合 数据 科学 领域 的 编程 语言 。 而 且 ，Python 具有 
受众 广 的 优秀 品质 ， 从 初学 者 到 专业 人 士 都 在 使 用 。 因 此 ， 为 了 完成 本 书 的 
从 零 开 始 实现 深度 学 习 的 目标 ，Python 可 以 说 是 最 合适 的 工具 。 

















1.2 Python 的 安装 


下 面 ， 我 们 首先 将 Python 安装 到 当前 环境 (电脑 ) 上 。 这 里 说 明 一 下 安 
疫 时 需要 注意 的 一 些 地 方 。 





1.2.1 Python 版 本 


Python 有 了 Python 2.z 和 了 Python 3.z 两 个 版 本 。 如 果 我 们 调查 一 下 目前 
Python 的 使 用 情况 ， 会 发 现 除了 最 新 的 版 本 3.z 以 外 ， 旧 的 版 本 2.z 仍 在 被 
大 量 使 用 。 因 此 , 在 安装 Python 时 ， 需 要 惯 重 选择 安装 Python 的 哪个 版 
本 。 这 是 因为 两 个 版 本 之 间 没 有 莱 容 性 (严格 地 讲 ， 是 没有 “ 问 后 兼容 性 ”)， 
也 就 是 说 ， 会 发 生 用 Python 3.z 写 的 代码 不 能 被 Python 2.7 执 行 的 情况 。 
本 书 中 使 用 Python 3.z， 只 安装 了 Python 2.x 的 读者 建议 男 外 安装 一 下 
Python 355 

















1.2.2 ”使 用 的 外 部 库 

本 书 的 目标 是 从 零 开 始 实现 深度 学 习 。 因 此 ， 除 了 NumPy 库 和 Matplotlib 
库 之 外 ， 我 们 极力 避免 使 用 外 部 库 。 之 所 以 使 用 这 两 个 库 ， 是 因为 它们 可 以 
有 效 地 促进 深度 学 习 的 实现 。 
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NumPy 是 用 于 数值 计算 的 库 ， 提 供 了 很 多 高 级 的 数学 算法 和 便利 的 数 
组 (和 矩阵 ) 操 作 方 法 。 本 书 中 将 使 用 这 些 便利 的 方法 来 有 效 地 促进 深度 学 习 
的 实现 。 

Matplotlib 是 用 来 画图 的 库 。 使 用 Matplotlib 能 将 实验 结果 可 视 化 ， 并 
在 视觉 上 确认 深度 学 习 运 行 期 间 的 数据 。 


` 


下 面 将 为 需要 安 妆 Python 的 读者 介绍 一 下 Python 的 安 疙 方法 。 已 经 安 
装 了 Python 的 该 者 ， 请 跳 过 这 一 部 分 内 容 。 

















本 书 将 使 用 下 列 编程 语言 和 库 。 

e Python 3.x(2016 年 8 月 时 的 最 新 版 本 是 3.5 ) 
e NumPy 

e Matplotlib 








1.233 Anaconda 发 行 版 


Python 的 安装 方法 有 很 多 种 ， 本 书 推荐 使 用 Anaconda 这 个 发 行 版 。 发 
行 版 集成 了 必要 的 库 ， 使 用 户 可 以 一 次 性 完成 安装 。Anaconda 是 一 个 侧重 
于 数据 分 析 的 发 行 版 ， 前 面 说 的 NumPy、Matplotlib 等 有 助 于 数据 分 析 的 
库 都 包含 在 其 中 。 

如 前 所 述 ， 本 书 将 使 用 Python 3.z 版 本 ， 因 此 Anaconda 发 行 版 也 要 安 
装 3.7 的 版 本 。 请 读者 从 官方 网 站 下 载 与 目 己 的 操作 系统 相应 的 发 行 版 ， 然 
Ia HORE 











(D Anaconda 作 为 一 个 针对 数据 分 析 的 发 行 版 ， 包 含 了 许多 有 用 的 库 ， 而 本 书 中 实际 上 只 会 使 用 其 中 的 
NumPy 库 和 Matplotlib 库 。 因 此 ， 如 果 想 保持 轻 量 级 的 开发 环境 ， 单 独 安装 这 两 个 库 也 是 可 以 的 。 
PEATE 
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1.3 Python 解释 器 


完成 Python Wea, IA — F Python WAS. FAA (Windows 
中 的 命令 行 窗口 ), 输入 python --versionfp A, aro ehh CAR WY 


Python 的 版 本 信息 。 


$ python --version 
Python 3.4.1 :: Anaconda 2.1.0 (x86 64) 








如 上 所 示 , 显示 了 Python 3.4.1( 根 据 实际 安装 的 版 本 , 版 本 号 可 能 不 同 )， 
WHE EMER I Python 3.z。 接 看 输入 python, Jz Python fi tat. 

$ python 

Python 3.4.1 |Anaconda 2.1.0 (x86 64)| (default, Sep 10 2014, 17:24:09) 

[GCC 4.2.1 (Apple Inc. build 5577)] on darwin 


Type "help", "copyright", "credits" or "license" for more information. 
>>> 


Python ff Peart BUR XS, FAP REI LII Python xpi AIJT 3X 
进行 编程 。 比 如 ， 当 用 户 询问 “1 十 2 等 于 几 ? ”的 时 候 ，Python ff fes zs E 
答 “3”， 所 谓 对 话 模式 ， 就 是 指 这 样 的 交互 。 现 在 ， 我 们 实际 输入 一 下 看 看 。 


>>> 1 + 2 
3 


Python ff PE tir n] VA BRE EITA WEIN EE) aE. P, 我们 使 
HAXA, 来 看 几 个 简单 的 Python 编程 的 例子 。 





加 法 或 乘法 等 算术 计算 ， 可 按 如 下 方式 进行 。 


>>> 1 - 2 
-1 
>>> 4*5 


20 
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RSRS, / AN RIE, ORT 32 SN 21X 71). A, 在 
Python 2.x 中 ， 整 数 除 以 整数 的 结果 是 整数 ， 比 如 ,，7 二 5 的 结果 是 1。 但 在 
Python 3.z 中 ， 整 数 除 以 整数 的 结果 是 小 数 ( 浮 点 数 )。 


1.3.2 ”数据 类 型 


编程 中 有 数据 类 型 (data type) 这 一 概念 。 数 据 类 型 表示 数据 的 性 质 ， 
整数 、 小 数 、 字 符 串 等 类 型 。Python 中 的 type() 函数 可 以 用 来 查看 数据 


>>> type(10) 
«class 'int'» 
>>> type(2.718) 
«class 'float'» 
>>> type("hello") 
«class 'str'» 


根据 上 面 的 结果 可 知 ,19 是 int 类 型 ( 整 型 ), 2.718 FE float 类 型 ( 浮 点 型 ) 
"hello" 是 str( 字 符 串 ) 类 型 。 另外,“ 类 型 " 和 “类 " 这 两 个 词 有 时 用 作 相 同 
的 意思 。 这 里 ,对 于 输出 结果 <class 'int'>, 可 以 将 其 解释 成 “10 是 int 类 (类 


m». 


1.3.3 ”变量 








可 以 使 用 x 或 y 等 字母 定义 变量 (variable)。 此 外 , 可 以 使 用 变量 进行 计算 ， 
也 可 以 对 变量 赋值 。 





>>> Xx = 10 # 初始 化 
>>> print(x) # 输出 x 
10 

>>> x = 100 # 赋值 
>>> print(x) 

100 
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>>> y = 3.14 
>>> xX * y 
314.0 


>>> type(x * y) 
«class 'float'» 





Python 是 属于 “动态 类 型 语言 ”的 编程 培 言 ， 所 谓 动 态 ， 是 指 变 量 的 类 
型 是 根据 情况 日 动 决定 的 。 在 上 面 的 例子 中 ， 用 户 并 没有 明确 指出 “x 的 类 
型 是 int( 整 型 ,是 Python 根 据 x 被 初始 化 为 10， 从 而 判断 出 x 的 类 型 为 
int 的。 此 外 ， 我 们 也 可 以 看 到 ， 整 数 和 小 数 相 乘 的 结果 是 小 数 (数据 类 型 的 
AFR) HIR, P 是 注释 的 意思 ， 它 后 面 的 文字 会 被 Python 忽略。 














1.3.4 列表 
除了 单一 的 数值 ， 还 可 以 用 列表 (数组 ) 汇 总 数据 。 


>>> a = [1, 2, 3, 4, 5] # 和 后 成 列表 
>>> print(a) # 输出 列表 的 内 容 

[1, 2, 3, 4, 5] 

>>> len(a) # 获取 列表 的 长 度 


>>> a[0] # 访问 第 一 个 元 素 的 值 
>>> a[4] 
>>> a[4] = 99 # 赋值 


>>> print(a) 
[Lp 2, 3, 4, 99] 








元 素 的 访问 是 通过 a[9] 这 样 的 方式 进行 的 。[] 中 的 数字 称 为 索引 (下 标 )， 
索引 从 0 开始 (索引 0 对 应 第 一 个 元 素 )。 此 外 ，Python 的 列表 提供 了 切片 
(slicing) 这 一 便捷 的 标记 法 。 使 用 切片 不 仅 可 以 访问 某 个 值 ， 还 可 以 访问 列 
表 的 子 列表 (部 分 列表 )。 





>>> print(a) 

[1; 2; 3; 4, 99] 

>>> a[0:2] # 获取 索引 为 0 到 2( 不 包括 21 ) 的 元 素 
[15.2] 

>>> a[1:] # 获取 从 索引 为 1 的 元 素 到 最 后 一 个 元 素 
[2, 3, 4, 99] 
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>>> a[:3] # 获取 从 第 一 个 元 素 到 索引 为 3( 不 包括 31 ) 的 元 素 

LE; 2; 3] 

>>> a[:-1] £ 获取 从 第 一 个 元 素 到 最 后 一 个 元 素 的 前 一 个 元 素 之 间 的 元 素 
[1, 2, 3, 4] 

>>> a[:-2] # 获取 从 第 一 个 元 素 到 最 后 一 个 元 素 的 前 二 个 元 素 之 间 的 元 素 
[1-23 3] 








进行 列表 的 切片 时 ， 需 要 写成 al9:2] 这 样 的 形式 。a[6:2] 用 于 取出 从 索 
5179 0 R26 SIR S17 2 CR AE ANRH. HIR, ARG] —1 XT 
应 最 后 一 个 元 素 ，-2 对 应 最 后 一 个 元 素 的 前 一 个 元 素 。 








13.5 字典 





列表 根据 索引 ， 按照 0,1,2,… 的 顺序 存储 值 ， 而 字典 则 以 键 值 对 的 形 
式 存储 数据 。 字 上 典 束 像 《 新 华 了 字典 那样 , 将 单词 和 它 的 含义 对 应 着 存储 起 来 。 








>>> me = {'height':180} # 生成 字典 
>>> me['height'] # 访问 元 素 


>>> me['weight'] = 70 # 添加 新 元 素 


>>> print(me) 
{'height': 180, 'weight': 70} 


1.3.6 ”布尔 型 


Python 中 有 boot 型 。boot 型 取 True 或 Fatse 中 的 一 个 值 。 针 对 boot 型 的 
运算 符 包 括 and、or 和 not( 针 对 数值 的 运算 符 有 +、-、*、/ 等 ， 根 据 不 同 的 
数据 类 型 使 用 不 同 的 运算 符 )。 





>>> hungry = True # RT? 
>>> sleepy = False # AS? 
>>> type(hungry) 

«class 'bool'» 

>>> not hungry 

False 

>>> hungry and sleepy # JJ HI 
False 

>>> hungry or sleepy # (UE 
True 
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1.3.7 if 语句 


根据 不 同 的 条 件 选 择 不 同 的 处 理 分 文 时 可 以 使 用 if/etse 语 句 。 





>>> hungry = True 
>>> if hungry: 
print("I'm hungry") 


I'm hungry 
>>> hungry = False 
>>> if hungry: 
print("I'm hungry") # 使 用 空白 字符 进行 缩 进 
. else: 
print("I'm not hungry") 
print("I'm sleepy") 


not hungry 
sleepy 


HH- 
3 3 


Python Hx AAPA EZA. EM if AP, if hungry: 下面 
的 语句 开头 有 4 个 空 日 字符 。 它 是 缩 进 的 意思 ， 表 示 当 前 面 的 条 件 (if hungry) 
成 立时 ， 此 处 的 代码 会 被 执行 。 这 个 缩 进 也 可 以 用 tab 表 示 ，Python 中 推荐 
使 用 空白 字符 。 





(^7 | Python 使 用 空白 字符 表示 缩 进 。 一 般 而 言 ， 每 缩 进 一 次 ,使 用 4 





个 空白 字符 。 


1.3.8 for 语句 
进行 循环 处 理 时 可 以 使 用 for 语 句 。 


>>> for i in [1, 2, 3]: 
print(i) 


HH - 


UJ N 


这 是 输出 列表 [1, 2, 3] 中 的 元 素 的 例子 。 使 用 for «++ in UBER, 
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可 以 按 顺 序 访问 列表 等 数据 集合 中 的 各 个 元 素 。 


1.3.9 pea 
可 以 将 一 连 串 的 处 理 定义 成 函数 (function )。 


>>> def hello(): 
print("Hello World!") 


>>> hello() 
Hello World! 


IKAk, PRZ IREZ. 


>>> def hello(object): 
print("Hello " + object + "!") 


>>> hello("cat") 
Hello cat! 


另外 ， 字 符 串 的 拼接 可 以 使 用 +。 
XH] Python fi EASA, Linux sk Mac OS X 的 情况 下 输入 Ctrl-D (FRIE 
Ctrl， 再 按 D 键 ) ; Windows 的 情况 下 输入 Ctrl-Z， 然 后 按 Enter 键 。 


1.4 Python 脚本 文件 





到 目前 为 止 ， 我 们 看 到 的 都 是 基于 Python 解释 器 的 例子 。Python 解释 
天 能 够 以 对 话 模式 执行 程序 ， 非常 便于 进行 简单 的 实验 。 但 是 ， 想 进行 一 
连 串 的 处 理 时 ， 因 为 每 次 都 需要 输入 程序 ， 所 以 不 太 方便 。 这 时 ， 可 以 将 
Python 程序 保存 为 文件 ， 然 后 (集中 地 ) 运 行 这 个 文件 。 下 面 ， 我 们 来 看 一 
个 Python 脚本 文件 的 例子 。 


1.4.1 保存 为 文件 


打开 文本 编辑 句 ， 新 建 一 个 hungry.py 的 文件 。hungry.py 只 包含 下 面 一 
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print("I'm hungry!") 


接着 , 打开 终端 (Windows 中 的 命令 行 窗 口 ), 移 至 hungry.py 所 在 的 位 置 。 
然后 ， 将 hungry.py 文 件 名 作为 参数 ,运行 python 命 令 。 这 里 假设 hungry. 
py 在 ~/deep-tearning-from-scratch/ch9l 目录 下 (在 本 书 提 供 的 源 代 码 中 ， 
hungry,.py 文 件 位 于 ch91l 目 录 下 )。 





$ cd -/deep-learning-from-scratch/ch01 # 移动 目录 


$ python hungry.py 
I'm hungry! 


这 样 EH python hungry.py 命 令 就 可 以 执行 这 个 Python 程序 了 。 


1.4.2 类 


前 面 我们 了 解 了 int 和 str 等 数据 类 型 (通过 type() 困 数 可 以 查看 对 象 的 
类 型 )。 这些 数据 类 型 是 “内 置 ” 的 数据 类 型 ， 吓 Python 中 一 开始 就 有 的 数 
据 类 型 。 现 在 ， 我 们 来 定义 新 的 类 。 如 有 果 用 户 目 己 定 义 类 的 话 ， 就 可 以 自己 
创建 数据 类 型 。 此 外 ， 也 可 以 定义 原创 的 方法 (类 的 函数 ) 和 属性 。 

Python 中 使 用 class 关键 字 来 定义 类 ， 类 要 巡 循 下 述 格式 (模板 )。 





class 类 名 : 
def init (self， 参 数 ，…): # 构造 函数 


def 方法 名 1(self， 参 数 ，…): # 方法 1 


def 方法 名 2(self， 参 数 ，…): # 方法 2 


这 里 有 一 个 特殊 的 _init 方法， 这 是 进行 初始 化 的 方法 ， 也 称 为 构造 
函数 (constructor) ,只 在 生成 类 的 实例 时 被 调用 一 次 。 此 外 ， 在 方法 的 第 一 
个 参数 中 明确 地 写 入 表示 日 映 ( 自 里 的 实例 ) 的 self 是 Python 的 一 个 特点 (学 
过 其 他 编程 语言 的 人 可 能 会 觉得 这 种 号 self 的 方式 有 一 点 奇 怪 ) 

下 面 我 们 通过 一 个 简单 的 例子 来 创建 一 个 类 。 这 里 将 下 面 的 程序 保存 为 


man. py, 
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class Man: 
def | init (self, name): 
self.name - name 
print("Initialized!") 


def hello(self): 
print("Hello " + self.name + "!") 


def goodbye(self): 
print("Good-bye " + self.name + "!") 


m - Man("David") 
m.hello() 
m.goodbye() 


从 终端 运行 man.py。 


$ python man.py 

Initialized! 

Hello David! 

Good-bye David! 

这 里 我 们 定义 了 一 个 新 类 Man。 上 面 的 例子 中 , 类 Man 生 成 了 实例 (对 象 ) m. 

类 Man 的 构造 函数 (初始 化 方法 ) 会 接收 参数 name， 然 后 用 这 个 参数 初始 
化 实例 变量 self.name。 实 例 变 量 是 存储 在 各 个 实例 中 的 变量 。Python 中 可 
以 像 seLf.name 这 样 ， 通 过 在 self 后 面 添 加 属性 名 来 生成 或 访问 实例 变量 。 








1.5 NumPy 





在 深度 学 习 的 实现 中 ， 经 常 出 现 数 组 和 和 矩阵 的 计算 。NumpPy 的 数组 类 
(numpy.array) 中 提供 了 很 多 便捷 的 方法 ， 在 实现 深度 学 习 时 ， 我 们 将 使 用 这 
些 方法 。 本 节 我 们 来 简单 介绍 一 下 后 面 会 用 到 的 NumPy。 





1.5.1. EA NumPy 
NumPy 是 外 部 库 。 这 里 所 说 的 “外 部 ”是 指 不 包含 在 标准 版 Python 中 。 
因此 ， 我们 首先 要 导入 NumPy 库 。 
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>>> import numpy as np 


Python 中 使 用 :import 语句 来 导入 库 。 这 里 的 import numpy as np, Ef 
译 的话 束 是 “将 numpy 作 为 np 导入 ”的 意思 。 通 过 写成 这 样 的 形式 ,之 后 
NumPy 相关 的 方法 均 可 通过 np 来 调用 。 








1.5.2. Æp% NumP y 数组 


要 生成 NumPy 数 组 ， 需要 使 用 np.array() 方 法 。np.array() 接收 Python 
列表 作为 参数 ， 生 成 NumPy 数 组 (numpy.ndarray)。 





>>> x = np.array([1.0, 2.0, 3.0]) 
>>> print(x) 

L 1. 2. 3.] 

»»» type(x) 

«class 'numpy.ndarray'» 


1.553 NumPy 的 算术 运算 
下 面 是 NumPy 数 组 的 算术 运算 的 例子 。 
>>> x = np.array([1.0, 2.0, 3.0]) 
>>> y = np.array([2.0, 4.0, 6.0]) 
>>> X+ y # 对 应 元 素 的 加 法 
array([ 3., 6., 9.]) 
>>> X - y 
array([ -1., -2., -3.]) 
>>> X * y # element-wise product 
array([ 2., 8., 18.]) 


>>> x / y 
array([ 0.5, 0.5, 0.5]) 


这 里 需要 注意 的 是 ， 数 组 x 和 数组 y 的 元 素 个 数 是 相同 的 (两 者 均 是 元 素 
个 数 为 3 的 一 维 数组 ) 当 x 和 y 的 元 系 个 数 相 同时 ， 可 以 对 各 个 元 素 进行 算 
术 运 算 。 如 果 元 系 个 数 不 同 , 程序 就 会 报错 , 所 以 元 素 个 数 保持 一 致 非常 重要 。 
另外 ,“ 对 应 元 系 的 ”的 莫 文 是 element-wise， 比 如 “对 应 元 素 的 乘法 ”就 是 
element-wise product, 


NumPy 数组 不 仅 可 以 进行 element-wise 运 算 , 也 可 以 和 单一 的 数值 (标量 ) 
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组 合 起 来 进行 运算 ,此 时 ,需要 在 NumPy 数组 的 各 个 元 素 和 标量 之 间 进 行 运算 。 
这 个 功能 也 被 称 为 广播 ( 详 见 后 文 )。 
>>> X = np.array([1.0, 2.0, 3.0]) 


>>> x / 2.0 
array([ 0.5, 1. , 1.5]) 


1.5.4 NumPy 的 N 44248 


NumPy 不 仅 可 以 生成 一 维 数组 ( 排 成 一 列 的 数组 ), 也 可 以 生成 多 维 数组 。 
比如 ， 可 以 生成 如 下 的 二 维 数组 (和 矩阵 )。 


>>> A = np.array([[1, 2], [3, 4]]) 
>>> print(A) 
[[1 2] 
[3 4]] 
>>> A.shape 
(2, 2) 
>>> A.dtype 
dtype('int64') 


这 里 生成 了 一 个 2 x 2RBEEA, 237b, JERE A BIKA] Lala. shape 8 , 
和 矩阵 元 系 的 数据 类 型 可 以 通过 dtype AE- PH, 我 们 来 看 一 下 矩阵 的 算术 运算 。 





>>> B = np.array([[3, 0],[0, 611) 
>>> A+B 
array([[ 4, 2], 
[ 3; 20) 1) 
>>> A * B 
array([[ 3, 6], 
[ 0, 24]]) 


PUA A AIEEE, EEREN AEn] DA EA DZ TR PE LJ 
对 应 元 又 的 方式 进行 。 并 且 , 也 可 以 通过 标量 (单一 数值 ) SH TARNA. 
这 也 是 基于 广播 的 功能 。 














>>> print(A) 
[[1 2] 
[3 4]] 
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>>> A * 10 
array([[ 10, 20], 
[ 30, 40]]) 


NumPy 数 组 (np.array) 可 以 生成 N 维 数组 ， 即 可 以 生成 一 维 数组 、 
二 维 数组 、 三 维 数组 等 任意 维 数 的 数组 。 数 学 上 将 一 维 数组 称 为 向 量 ， 
将 二 维 数 组 称 为 矩阵 。 另 外 ， 可 以 将 一 般 化 之 后 的 向 量 或 矩阵 等 统 
称 为 张 量 (tensor)。 本 书 基 本 上 将 二 维 数组 称 为 “和 矩阵”， 将 三 维 数 
组 及 三 维 以 上 的 数组 称 为 “ 张 量 " 或 “多 维 数组 S 





15.5 广播 


NumPy 中 ， 形 状 不 同 的 数组 之 间 也 可 以 进行 运算 。 之 前 的 例子 中 ,在 
2 x 2 的 矩阵 A 和 标量 10 之 间 进 行 了 乘法 运算 。 在 这 个 过 程 中 ， 如 图 1-1 所 示 ， 
标量 10 被 扩展 成 了 2 x 2 的 形状 ， 然 后 再 与 矩阵 A 进 行 乘法 运算 。 这 个 巧妙 
的 功能 称 为 广播 (broadcast)。 











L L 一 
uU 





图 1-1 广播 的 例子 : 标量 10 被 当 作 2 x 289ABDE 





我 们 通过 下 面 这 个 运算 再 来 看 一 个 广播 的 例子 。 


>>> A = np.array([[1, 2], [3, 4]]) 
>>> B = np.array([10, 20]) 
>>> A * B 
array([[ 10, 40], 
[ 30, 80]]) 


在 这 个 运算 中 ， 如 图 1-2 所 示 ， 一 维 数组 8 被 “巧妙 地 ” 变 成 了 和 二 位 数 
组 A 相同 的 形状 ， 然 后 再 以 对 应 元 素 的 方式 进行 运算 。 

综 上 ， 因 为 NumPy 有 广播 功能 ， 所 以 不 同形 状 的 数组 之 间 也 可 以 顺利 
地 进行 运算 。 
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图 1-2 广播 的 例子 2 


1.5.6 ”访问 元 素 


元 素 的 索引 从 0 开始 。 对 各 个 元 素 的 访问 可 按 如 下 方式 进行 。 





>>> X = np.array([[51, 55], [14, 19], [0, 4]]) 
>>> print(X) 
[[51 55] 
[14 19] 
[0 4]] 
>>> X[0] # 第 0 行 
array([51, 55]) 
>>> X[0][1] # (0,1) 的 元 素 
55 


也 可 以 使 用 for 语 句 访问 各 个 元 素 。 


>>> for row in X: 
print (row) 

[51 55] 

[14 19] 

[0 4] 


除了 前 面 介 绍 的 索引 操作 ，NumPy 还 可 以 使 用 数组 访问 各 个 元 素 。 


>>> X = X.flatten() # 将 X 转 换 为 一 维 数组 

>>> print(X) 

[51 55 14 19 0 4] 

>>> X[np.array([0, 2, 4])] # 获取 索引 为 0、2、4 的 元 素 
array([51, 14, 0]) 


运用 这 个 标记 法 ， 可 以 获取 满足 一 定 条 件 的 元 素 。 例 如 ， 要 从 X 中 抽出 
大 于 15 的 元 素 ， 可 以 写成 如 下 形式 。 
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>>> X > 15 

array([ True, True, False, True, False, False], dtype=bool) 

>>> X[X>15] 

array([51, 55, 19]) 

对 NumPy 数 组 使 用 不 等 号 运算 符 等 (上 例 中 是 X > 15) ,结果 会 得 到 一 个 
布尔 型 的 数组 。 上 例 中 就 是 使 用 这 个 布尔 型 数组 取出 了 数组 的 各 个 元 素 ( 取 
出 True 对 应 的 元 素 )。 





Python 等 动态 类 型 语言 一 般 比 C 和 C++ 等 静态 类 型 语言 ( 编译 型 语言 ) 
运算 速度 慢 。 实 际 上 ， 如 果 是 运算 量 大 的 处 理 对 象 ， 用 C/C++ ERE 
序 更 好 。 为 此 ， 当 Python 中 追求 性 能 时 ， 人 们 会 用 C/C++ 来 实现 
处 理 的 内 容 。Python 则 承担 “中 间 人 ”的 角色 ， 负 责 调 用 那些 用 C/ 
C++ 写 的 程序 。NumpPy F, 主要 的 处 理 也 都 是 通过 C 或 C++ 实现 的 。 
因此 ， 我 们 可 以 在 不 损失 性 能 的 情况 下 ， 使 用 Python 便利 的 语法 。 





1.6 Matplotlib 





在 深度 学 习 的 实验 中 ， 图 形 的 绘制 和 数据 的 可 视 化 非常 重 要 。Matplotlib 
是 用 于 绘制 图 形 的 库 ， 使 用 Matplotlib 可 以 轻松 地 绘制 图 形 和 实现 数据 的 可 
视 化 。 这 里 ， 我 们 来 介绍 一 下 图 形 的 绘制 方法 和 图 像 的 显示 方法 。 





1.6.1 绘制 简单 图 形 
可 以 使 用 matplotlib 的 pyplot 模 块 绘制 图 形 。 话 不 多 说 ， 我 们 来 看 一 个 
绘制 sin 函数 曲线 的 例子 。 


import numpy as np 
import matplotlib.pyplot as plt 


# 生成 数据 
x = np.arange(0, 6, 0.1) # 以 0.1 为 单位 ， 生 成 0 到 6 的 数据 
y = np.sin(x) 


# 绘制 图 形 
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plt.plot(x, y) 

plt.show() 

xx E fii AY NumPy 的 arange 方 法 生成 了 [9, 0.1, 0.2, =, 5.8, 5.9] 的 
数据 ， 将 其 设 为 x。 对 x 的 各 个 元 素 , MH NumPy sin PRZ np.sinO , 将 x、 
y 的 数据 传 给 plt.plot 方 法 , 然后 绘制 图 形 。 最 后 , 通过 ptt.show() 显示 图 形 。 
运行 上 述 代码 后 ， 就 会 显示 图 1-3 所 示 的 图 形 。 





1-3 sin RRA 


1.6.2. pyplot 的 功能 


在 刚才 的 sin 函数 的 图 形 中 ， 我 们 尝试 妃 加 cos 子 数 的 图 形 ， 并 尝试 使 用 
pyplot 的 添加 标题 和 >z 轴 标签 名 等 其 他 功能 。 


import numpy as np 
import matplotlib.pyplot as plt 


# 生成 数据 
x = np.arange(0, 6, 0.1) # 以 0.1 为 单位 ， 生 成 6 到 6 的 数据 
yl = np.sin(x) 
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y2 


np.cos (x) 


# 绘制 图 形 


plt. 
plt. 
plt. 
plt. 
plt. 
plt. 
plt. 


plot(x, yl, label="sin") 
plot(x, y2, linestyle = 
xlabel("x") s X 轴 标签 
ylabel("y") # y 轴 标签 
title('sin & cos') # 标题 
legend() 

show() 





sull. label="cos") # 用 虚线 绘制 


结果 如 图 1-4 所 示 ， 我 们 看 到 图 的 标题 、 轴 的 标签 名 郡 被 标 出 来 了 。 





1-4 sin 国 数 和 cos 国 数 的 图 形 


1.0.3 


显示 图 像 





pyplot 中 还 提供 了 用 于 显示 图 像 的 方法 inmshow()。 另 外 , 可 以 使 用 
matplotlib.image 模 块 的 imread() 方 法 读 入 图 像 。 下 面 我 们 来 看 一 个 例子 。 


import matplotlib.pyplot as plt 
from matplotlib.image import imread 


img = imread('lena.png') # ARK CGE ANE! ) 
plt.imshow(img) 


plt.show() 


运行 上 述 代 码 后 ， 会 显示 图 1-5 所 示 的 图 像 。 





1-5 ”显示 图 像 


这 里 ， 我 们 假定 图 像 lena.png 在 当前 目录 下 。 读 者 根据 上 自己 的 环境 ， 可 
能 需要 变更 文件 名 或 文件 路 径 。 为 外 ， 本 书 提供 的 源 代码 中 ， 在 dataset H 
录 下 有 样本 图 像 ena.png。 比 如 ， 在 通过 Python 解释 大 从 chol 目录 运行 上 
述 代码 的 情况 下 ,将 图 像 的 路 径 'lena.png' 改 为 '../dataset/lena.png'， 即 
可 正确 运行 。 








1.7 小结 


本 章 重 点 介绍 了 实现 深度 学 习 ( 神 经 网 络 ) 所 需 的 编程 知识 ， 以 为 学 习 
深度 学 习 做 好 准备 。 从 下 一 章 开 始 ， 我 们 将 通过 使 用 Python 实际 运行 代码 ， 
逐步 了 解 深度 学 习 。 
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本 草 只 介绍 了 关于 Python 的 最 低 限 度 的 知识 ， 想 进一步 了 解 Python 的 
读者 ， 可 以 参考 下 面 这 些 图 书 。 首 先 推荐 《Python 语言 及 其 应 用 》 一 书 。 
这 是 一 本 详细 介绍 从 Python 编程 的 基础 到 应 用 的 实践 性 的 入 门 书 。 关 于 
NumPy,《 利 用 Python 进行 数据 分 析 》 一 书 中 进行 了 简单 易 懂 的 总 结 。 此 
外 ,“Scipy Lecture Notes” 外 这 个 网 站 上 也 有 以 科学 计算 为 主题 的 NumPy 
和 Matplotlib 的 详细 介绍 ， 有 兴趣 的 读者 可 以 参考 。 

下 面 ， 我 们 来 总 结 一 下 本 章 所 学 的 内 容 ， 如 下 所 示 。 











本 章 所 学 的 内 容 
Python 是 一 种 简单 罗 记 的 编程 语言 。 
Python 是 开源 的 ， 可 以 目 由 使 用 。 


本 书 中 将 使 用 Python 3.0 实现 深度 学 习 。 

本 书 中 将 使 用 NumPy 和 Matplotlib 这 两 种 外 部 库 。 
Python 有 “解释 器 ”和 “脚本 文件 ”两 种 运行 模式 。 
Python 能 够 将 一 系列 处 理 集成 为 函数 或 类 等 模块 。 
NumPy 中 有 很 多 用 于 操作 多 维 数组 的 便捷 方法 。 





2 
感知 机 











本 章 将 介绍 感知 机 "(perceptron) 这 一 算法 。 感 知 机 是 由 美国 学 者 Frank 
Rosenblatt 在 1957 年 提出 来 的 。 为 何 我 们 现在 还 要 学 习 这 一 很 久 以 前 就 有 
的 算法 呢 ? 因为 感知 机 也 是 作为 神经 网 络 (深度 学 习 ) 的 起 源 的 算法 。 因 此 ， 
学 习 感 知 机 的 构造 也 就 是 学 习 通 向 神经 网 络 和 深度 学 习 的 一 种 重要 思想 。 

本 章 我 们 将 简单 介绍 一 下 感知 机 ， 并 用 感知 机 解决 一 些 简 单 的 问题 。 和 希 
望 读 者 通过 这 个 过 程 能 熟悉 感知 机 。 


2.1 感知 机 是 什么 


感知 机 接收 多 个 输入 信号 ， 输 出 一 个 信号 。 这 里 所 说 的 “信号 ”可 以 想 
象 成 电流 或 河流 那样 具备 “流动 性 ”的 东西 。 像 电流 流 过 导线 ， 疝 前 方 输送 
电子 一 样 ， 感 知 机 的 信号 也 会 形成 流 ， 向 前 方 输送 信息 。 但 是 ， 和 实际 的 电 
流 不 同 的 是 ， 感 知 机 的 信号 只 有 “ 流 /不 流 ”(1/0) 两 种 取 值 。 在 本 书 中 ，0 
对 应 “不 传递 信号 ”，1 对 应 “传递 信号 ”。 

图 2-1 是 一 个 接收 两 个 输入 信号 的 感知 机 的 例子 。z1:、zs 是 输入 信号 ， 
y 是 输出 信号 ， wi. wore A HE (wE weight B A E 5E). 图 中 的 吕 称 为 “ 神 
经 元 ”或 者 “节点 ”。 输 入 信号 被 送 往 神 经 元 时 ,会 被 分 别 乘 以 固定 的 权重 











(D 严格 地 讲 ， 本 章 中 所 说 的 感知 机 应 该 称 为 “人 工 神经 元 ”或 “朴素 感知 机 ”， 但 是 因为 很 多 基本 的 处 
理 都 是 共通 的 ， 所 以 这 里 就 简单 地 称 为 “感知 机 ”。 


22 | 第 2 章 感知 机 


(uz. Who )o 神经 元 会 计算 传送 过 来 的 言 号 的 总 和 ， 只 有 当 这 个 总 和 超过 
了 某 个 界限 值 时 ， 才 会 输出 1。 这 也 称 为 “神经 元 被 激活 ”。 这 里 将 这 个 界 














限 值 称 为 阐 值 ， 用 符号 0 表示 。 





2-1 有 两 个 输入 的 感知 机 


感知 机 的 运行 原理 只 有 这 些 ! 把 上 述 内 容 用 数学 式 来 表示 ,就 是 式 (2.1)。 


Te 
0 (10121 + wax» < 0) 
; (2.1) 


(w12z1 wor» 0) 








感知 机 的 多 个 输入 信号 都 有 各 目 固有 的 权重 ， 这 些 权 重 发 挥 着 控制 各 个 
守 号 的 草 要 性 的 作用 。 也 就 是 说 ， 权 重 越 大 ， 对 应 该 权重 的 信号 的 重要 性 就 


权重 相当 于 电流 里 所 说 的 电阻 。 电 阻 是 决定 电流 流动 难度 的 参数 ， 
电阻 越 低 ， 通 过 的 电流 就 越 大 。 而 感知 机 的 权重 则 是 值 越 大 ， 通 过 
的 信号 就 越 大 。 不 管 是 电阻 还 是 权重 ， 在 控制 信号 流动 难度 ( 或 者 流 
MAAR ) 这 一 点 上 的 作用 都 是 一 样 的 。 
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2.2 简单 逻辑 电路 
224 与 门 











现在 让 我 们 考虑 用 感知 机 来 解决 简单 的 问题 。 这 里 首先 以 逻辑 电路 为 题 
材 来 思考 一 下 与 门 (AND gate). 与 门 是 有 两 个 输入 和 一 个 输出 的 门 电路 。 图 2-2 
这 种 输入 信号 和 输出 信号 的 对 应 表 称 为 “ 真 值 表 ”。 如 图 2-2 所 示 ， 与 门 仅 在 
两 个 输入 均 为 1 时 输出 1， 其 他 时 候 则 输出 0。 














2-2 与 门 的 真 值 表 








F 面 考虑 用 感知 机 来 表示 这 个 与 门 。 需 要 做 的 就 是 确定 能 满足 网 2-2 的 
真 值 表 的 w;、w2、9 的 值 。 那 么 ， 设 定 什么 样 的 值 才 能 制作 出 满足 图 2-2 的 
条 件 的 感知 机 呢 ? 

实际 上 , 满足 图 2-2 的 条 件 的 参数 的 选择 方法 有 无 数 多 个 。 比 如 ， 当 
(wy, Wo, 9) = (0.5,0.5,0.7) 时 ,可 以 满足 图 2-2 的 条 件 。 此 外 ， 当 (w, wo, 0) 
为 (0.5, 0.5, 0.8) 或 者 (1.0, 1.0,1.0) 时 ,同样 也 满足 与 门 的 条 件 。 设 定 这 样 的 
参数 后 ， 仅 当 z 和 2 同时 为 1 时 ， 信 号 的 加 权 总 和 才 会 超过 给 定 的 国 值 0。 





2.2.2 与 非 门 和 或 门 
接着 ， 我 们 再 来 考虑 一 下 与 非 门 (NAND gate)。NAND 是 Not AND 的 
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意思 ， 与 非 门 就 是 显 倒 了 与 门 的 输出 。 用 真 值 表 表 示 的 话 ， 如 图 2-3 所 示 ， 





仅 当 zi 和 zw 同时 为 1 时 输出 0， 其 他 时 候 则 输出 1。 那 么 与 非 门 的 参数 又 可 
以 是 什么 样 的 组 合 呢 ? 





2-3 与 非 门 的 真 值 表 


要 表示 与 非 门 ,可 以 用 (wu wo, 9) = (—0.5, —0.5, —0.7) 这样 的 组 合 ( 其 
他 的 组 合 也 是 无 限 存在 的 )。 实 际 上 ， 只 要 把 实现 与 门 的 参数 值 的 符号 取 反 ， 
就 可 以 实现 与 非 门 。 

接 下 来 看 一 下 图 2-4 所 示 的 或 门 。 或 门 是 “只 要 有 一 个 输入 信号 是 1， 输 
出 就 为 1” 的 逻辑 电路 。 那 么 我 们 来 思考 一 下 ， 应 该 为 这 个 或 门 设 定 什 么 样 
的 参数 呢 ? 








2-4 ”或 门 的 真 值 表 
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这 里 决定 感知 机 参数 的 并 不 是 计算 机 ， 而 是 我 们 人 。 我 们 看 着 真 值 
表 这 种 “训练 数据 *"， 人 工 考 虑 (想到 ) 了 参数 的 值 。 而 机 器 学 习 的 课 
题 就 是 将 这 个 决定 参数 值 的 工作 交 由 计算 机 自动 进行 。 学 习 是 确定 
合适 的 参数 的 过 程 ， 而 人 要 做 的 是 思考 感知 机 的 构造 (模型 )， 并 把 
训练 数据 交 给 计算 机 。 








如 上 所 示 ， 我 们 已 经 知道 使 用 感知 机 可 以 表示 与 门 、 与 非 门 、 或 门 的 逻 
辑 电路 。 这 里 重要 的 一 点 是 : 与 门 、 与 非 门 、 或 门 的 感知 机 构造 是 一 样 的 。 
实际 上 ，3 个 门 电路 只 有 参数 的 值 ( 权 重 和 闽 值 ) 不 同 。 也 就 是 说 ， 相 同 构造 
的 感知 机 ， 只 需 通 过 适当 地 调整 参数 的 值 ， 就 可 以 像 “变色龙 演员 ”表演 不 
同 的 角色 一 样 ， 变 身 为 与 门 、 与 非 门 、 或 门 。 


2.3 ”感知 机 的 实现 
2.3.1 简单 的 实现 


现在 ， 我 们 用 Python 来 实现 刚才 的 逻辑 电路 。 这 里 ， 先 定义 一 个 接收 
BER x1 Fil x2 B) AND PRA 


def AND(x1, x2): 
wl, w2, theta = 0.5, 0.5, 0.7 
tmp = xl*wl + x2*w2 
if tmp <= theta: 
return 0 
elif tmp > theta: 
return 1 


在 函数 内 初始 化 参数 w1、w2 、theta， 当 输入 的 加 权 总 和 超过 国 值 时 返回 1, 
否则 返回 6。 我 们 来 确认 一 下 输出 结 末 是 否 如 图 2-2 所 示 。 


AND(0，0) # 输出 0 
AND(1, 0) # 输出 0 
AND(O, 1) # 输出 0 
AND(1, 1) # 输出 1 


果然 和 我 们 预想 的 输出 一 样 ! 这 样 我 们 就 实现 了 与 门 。 按 照 同样 的 步 又 ， 


26 | 第 2 章 感知 机 
也 可 以 实现 与 非 门 和 或 门 ， 不 过 让 我 们 来 对 它们 的 实现 稍 作 修改 。 


2.3.2 SANE MRS 


刚才 的 与 门 的 实现 比较 和 直接、 容易 理解 ， 但 是 考虑 到 以 后 的 事情 ， 我 们 
将 其 修改 为 男 外 一 种 实现 形式 。 在 此 之 前 ， 首 先 把 式 (2.1) 的 9 换 成 -5， 于 
是 就 可 以 用 式 (2.2) 来 表示 感知 机 的 行为 。 








0 (b+ 121 + Wer2 X 0) 
y= (2.2) 


1 (b+ wızı + wer2 > 0) 





3X (2.1) MR (2.2) 虽然 有 一 个 符号 不 同 ， 但 表达 的 内 容 是 完全 相同 的 。 
此 处 ,5 称 为 偏 置 ，w: 各 称 为 权重 。 如 式 (2.2) 所 示 ， 感 知 机 会 计算 输入 
言 号 和 权重 的 乘积 ,然后 加 上 偏 置 ， 如 果 这 个 值 大 于 0 则 输出 1， 否 则 输出 0。 
下 面 ， 我 们 使 用 NumPy， 按 式 (2.2) 的 方式 实现 感知 机 。 在 这 个 过 程 中 ， 我 
们 用 Python 的 解释 天 逐一 确认 结 








>>> import numpy as np 


>>> x = np.array([0, 1]) # 输入 
>>> w = np.array([0.5, 0.5]) # 权重 
>>> b = -0.7 # ua 
>>> w*x 


array([ 0. , 0.5]) 

>>> np.sum(w*x) 

0.5 

>>> np.sum(w*x) + b 

-0.19999999999999996 # 大 约 为 -0.2( 由 浮 点 小 数 造成 的 运算 误差 ) 

如 上 例 所 示 , 在 NumPy 数 组 的 乘法 运算 中 , 当 两 个 数组 的 元 素 个 数 相同 时 ， 
各 个 元 素 分 别 相 乘 ， 因 此 wx 的 结 采 就 是 它们 的 各 个 元 素 分 别 相 乘 ([6，1] * 
[0.5, 0.5] => [6，0.5])。 之 后 , np.sum(w*x) 再 计算 相 乘 后 的 各 个 元 素 的 总 和 。 
最 后 再 把 偏 置 加 到 这 个 加 权 总 和 上 ， 就 完成 了 式 (2.2) 的 计算 。 

















2.3.3 ”使 用 权重 和 偏 置 的 实现 
使 用 权重 和 偏 置 ， 可 以 像 下 面 这 样 实 现 与 门 。 
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def AND(x1, x2): 
x = np.array([x1, x2]) 
w = np.array([0.5, 0.5]) 
b = -0.7 
tmp = np.sum(w*x) + b 
if tmp <= 0: 
return 0 
else: 
return 1 











yt HU — On 7 d Eo. BEREE, IE AA wi. w 的 作用 是 不 
一 样 的 。 具 体 地 说 ，w Al we ce Pe rill da) A A AY PR PE eC, qi id EE 8] 
Tk AH ZS TU CC AY Sy PEE Ci HH fei 2g LA EE) Ae HE, rb 
-0.1， 则 只 要 输入 信号 的 加 权 总 和 超过 0.1， 和 神经 元 就 会 被 激活 。 但 是 如 打 
为 一 20.0, 则 输入 信号 的 加 权 总 和 必须 超过 20.0, 神经 元 才 会 被 激活 。 像 这 样 ， 
偏 置 的 值 决 定 了 神经 元 被 激活 的 容易 程度 。 为 外 ,这 里 我 们 将 w 和 ws 称 为 权重 ， 
TE DARA, 但 是 根据 上 下 文 ， 有 时 也 会 将 6、w1、ws 这 些 参 数 统称 为 权重 。 








偏 置 这 个 术语 ， 有 “ 穿 木 展 "的 效果 ， 即 在 没有 任何 输入 时 (输入 为 
0 时 )， 给 输出 穿 上 多 高 的 木 展 ( 加 上 多 大 的 值 ) 的 意思 。 实 际 上 ， 在 
式 (2.2) 的 5 十 uz, + az 的 计算 中 ， 当 输入 Zi 和 zz 为 0 时 ， 只 输出 
偏 置 的 值 。 





接着 ， 我 们 继续 实现 与 非 门 和 或 门 。 


def NAND(x1, x2): 
x = np.array([x1, x2]) 
w = np.array([-0.5, -0.5]) # 仅 权 重 和 偏 置 与 AND 不 同 ! 
b = 0.7 
tmp = np.sum(w*x) + b 
if tmp <= 0: 
return 0 
else: 
return 1 


def OR(x1, x2): 





CD 因为 木 展 的 底 比 较 厚 ， 穿 上 它 后 ， 整 个 人 也 会 显得 更 高 。 一 一 译 者 注 
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x = np.array([x1, x2]) 
w = np.array([0.5, 0.5]) # (UH RU Er AND Af [i]! 
b = -0.2 
tmp = np.sum(w*x) + b 
if tmp <= 0: 
return 0 
else: 
return 1 


我 们 在 2.2 市 介绍 过 ,与 门 、 与 非 门 、 或 门 是 具有 相同 构造 的 感知 机 ， 
区 别 只 在 于 权重 参数 的 值 。 因 此 ， 在 与 非 门 和 或 门 的 实现 中 ， 仅 设置 权重 和 
偏 置 的 值 这 一 点 和 与 门 的 实现 不 同 。 


2.4 感知 机 的 局 限 性 


到 这 里 我 们 已 经 知道 ， 使 用 感知 机 可 以 实现 与 门 、 与 非 门 、 或 门 三 种 逻 
辑 电路 。 现 在 我 们 来 考虑 一 下 异 或 门 (XOR gate), 


2.4.4 Fay] 


Fe MT HU AE HL. WK 2-5 rz. DU mn Ma. PHEN 
1 时 ， 才 会 输出 1(“ 异 或 ”是 拒绝 其 他 的 意思 )。 那 么 ,要 用 感知 机 实现 这 个 
异 或 门 的 话 ， 应 该 设 定 什么 样 的 权重 参数 呢 ? 





2-5 Bk JHA 
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实际 上 ， 用 前 面 介 绍 的 感知 机 是 无 法 实现 这 个 异 或 门 的 。 为 什么 用 感知 
机 可 以 实现 与 门 、 或 门 ， 却 无 法 实现 异 或 门 呢 ?” 下 面 我 们 尝试 通过 画图 来 思 
考 其 中 的 原因 。 

首先 ,我 们 试 着 将 或 门 的 动作 形象 化 。 或 门 的 情况 下 ， 当 权重 参数 
(b, wi, w2) = (—0.5, 1.0, 1.0) 时 ， 可 满足 图 2-4 的 真 值 表 条 件 。 此 时 ,感知 机 
可 用 下 面 的 式 (2.3) 表 示 。 








0 (-0.5+21+22 <0) 
y= (2.3) 


1 (—0.5 + zı +22 > 0) 


式 (2.3) 表 示 的 感知 机 会 生成 由 直线 一 0.5 + mi + to = 0 RE BI AAT as 
间 。 其 中 一 个 空间 输出 1， 另 一 个 空间 输出 0， 如 图 2-6 所 示 。 











图 2-6 感知 机 的 可 视 化 : 灰色 区 域 是 感知 机 输出 0 的 区 域 ， 这 个 区 域 与 或 门 的 性 质 一 致 


或 门 在 (£1, 13) E (0. 0) 时 输出 Q, 在 (Ti; 13) 为 (0, 1) ^ (1, 0) ^ (1, 1) 时 输 
出 1。 图 2-6 中 ，O 〇 表示 0， 人 表示 1。 如 果 想 制作 或 门 ， 需 要 用 直线 将 图 2-6 
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中 的 DO 和 A 分 开 。 实 际 上 ， 刚 才 的 那 条 直线 就 将 这 4 个 点 正确 地 分 开 了 。 
那么 ， 换 成 异 或 门 的 话 会 如 何 呢 ? 能 和 否 像 或 门 那 样 ， 用 一 条 直线 作出 分 
割 图 2-7 中 的 DO 和 和 的 空间 呢 ? 





2-7 〇 和 入 表示 异 或 门 的 和 输出。 可否 通过 一 条 直线 作出 分 割 C 和 人 的 空间 呢 ? 








想 要 用 一 条 直线 将 图 2-7 中 的 OO 和 人 分 开 ， 无论 如 何 都 做 不 到 。 事 实 上 ， 
用 一 条 百 线 是 无 法 将 〇 和 人 和 分 开 的 。 








2.4.2 ”线性 和 非 线 性 


图 2-7 中 的 DO 和 和 无 法 用 一 条 直线 分 开 ， 但 是 如 果 将 “直线 ”这 个 限制 条 
件 去 掉 , 就 可 以 实现 了 。 比 如 , 我 们 可 以 像 图 2-8 那 样 , 作出 分 开 O 和 信 的 空间 。 

感知 机 的 局 限 性 就 在 于 它 只 能 表示 由 一 条 直线 分 割 的 空间 。 图 2-8 这 样 守 
曲 的 曲线 无 法 用 感知 机 表示 。 力 外， 由 图 2-8 这 样 的 曲线 分 割 而 成 的 空间 称 为 
非 线 性 空间 ， 由 下 线 分 割 而 成 的 空间 称 为 线性 空间 。 线 性 、 非 线性 这 两 个 术 
语 在 机 带 学 习 领 域 很 闸 见 ， 可 以 将 其 想象 成 图 2-6 和 图 2-8 所 示 的 直线 和 曲线 。 
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2-8 ”使 用 曲线 可 以 分 开 O 和 信 
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感知 机 不 能 表示 异 或 门 让 人 深 感 遗憾 ， 但 也 无 需 翡 观 。 实 际 上 ， 感 知 机 
的 绝妙 之 处 在 于 它 可 以 “ 释 加 层 ”( 通 过 丢 加 层 来 表示 异 或 门 是 本 节 的 要 点 ) 
这 里 ， 我 们 暂且 不 考虑 过 加 层 具 体 是 指 什么 ， 先 从 其 他 视角 来 思考 一 下 异 或 
门 的 问题 。 




















25.1 已 有 门 电路 的 组 合 


异 或 门 的 制作 方法 有 很 多 ， 其 中 之 一 就 是 组 合 我 们 前 面 做 好 的 与 门 、 与 
非 门 、 或 门 进行 配置 。 这 里 , 与 门 、 与 非 门 、 或 门 用 图 2-9 中 的 符号 表示 。 AIF, 
图 2-9 中 与 非 门 前 端的 O 表 示 反 转 输出 的 意思 。 

那么 ,请 思考 一 下 ， 要 实现 异 或 门 的 话 ， 需 要 如 何 配 置 与 门 、 与 非 门 和 
或 门 呢 ? 这 里 给 大 家 一 个 提示 ， 用 与 门 、 与 非 门 、 或 门 代替 图 2-10 中 的 各 个 
“?”， 就 可 以 实现 寞 或 门 。 
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图 2-9 与 门 、 与 非 门 、 或 门 的 符号 





2.4 节 讲 到 的 感知 机 的 局 限 性 ， 严 格 地 讲 ， 应 该 是 “ 单 层 感知 机 无 法 
表示 异 或 门 " 或 者 “ 单 层 感知 机 无 法 分 离 非 线性 空间 "。 接 下 来 ， 我 
们 将 看 到 通过 组 合 感知 机 ( 琶 加 层 ) 就 可 以 实现 异 或 门 。 











异 或 门 可 以 通过 图 2-11 所 示 的 配置 来 实现 。 这 里 ,xi 和 zz 表示 输入 信号， 
y 表 示 输 出 信号 。zi 和 zs 是 与 非 门 和 或 门 的 输入 ， 而 与 非 门 和 或 门 的 输出 则 
是 与 门 的 输入 。 


S2 
X2 


图 2-11 通过 组 合 与 门 、 与 非 门 、 或 门 实现 异 或 门 














现在 ,我们 来 确认 一 下 图 2-11 的 配置 是 否 真 正 实现 了 异 或 门 。 这 里 ,把 
51 作 为 与 非 门 的 输出 ， 把 ss 作为 或 门 的 输出 ， 走 入 真 值 表 中 。 结 有 果 如 图 2-12 
所 示 ， 观察 x1、 X2. Y, 可 以 发 现 确实 符合 异 或 门 的 输出 。 
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2.5.2 ” 异 或 门 的 实现 


下 面 我 们 试 着 用 Python 来 实现 图 2-11 所 示 的 异 或 门 。 使 用 之 前 定义 的 
AND Žr, NAND KAŽI OR pea, PAR PACE EPA) 实现 。 


sl = NAND(x1, x2) 
s2 = OR(x1, x2) 

y = AND(s1, s2) 
return y 


def XOR(x1, x2): 


X» XOR PR 23 Se Hag HH UTE 


XOR(0, 0) # 输出 0 
XOR(1, 0) # 输出 1 
XOR(O, 1) # 输出 1 
XOR(1, 1) # 输出 0 








这 样 ， 异 或 门 的 实现 就 完成 了 。 下 面 我 们 试 着 用 感知 机 的 表示 方法 ( 明 
确 地 显示 神经 元 ) 来 表示 这 个 异 或 门 ， 结 采 如 图 2-13 BAN 

如 图 2-13 所 示 ， 异 或 门 是 一 种 多 层 结构 的 神经 网 络 。 这 里 ， 将 最 左边 的 
一 列 称 为 第 0 层 ， 中 间 的 一 列 称 为 第 1 层 ， 最 右边 的 一 列 称 为 第 2 层 。 

图 2-13 所 示 的 感知 机 与 前 面 介绍 的 与 门 、 或 门 的 感知 机 (图 2-1) 形 状 不 
同 。 实 际 上 ， 与 门 、 或 门 是 单 层 感 知 机 ， 而 异 或 门 是 2 层 感知 机 。 闪 加 了 多 
层 的 感知 机 也 称 为 多 层 感知 机 (multi-layered perceptron), 
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第 0 层 第 1 层 第 2 层 
Ly x | si 
y 
X2 É $2 


2-13 ”用 感知 机 表示 异 或 门 


(^7 | 图 2-13 中 的 感知 机 总 共 由 3 层 构成 ， 但 是 因为 拥有 权重 的 层 实质 
n 上 只 有 2 层 ( 第 0 层 和 第 1 层 之 间 ， 第 1 层 和 第 2 层 之 间 )， 所 以 称 
为 “2 层 感 知 机 ”"。 不 过 ， 有 的 文献 认为 图 2-13 的 感知 机 是 由 3 层 
构成 的 ， 因 而 将 其 称 为 “3 层 感 知 机 o 





在 图 2-13 所 示 的 2 层 感知 机 中 ， 先 在 第 0 层 和 第 1 层 的 神经 元 之 间 进 行 
言 号 的 传送 和 接收 ， 然 后 在 第 1 层 和 第 2 层 之 间 进 行 信号 的 传送 和 接收 ， 具 
体 如 下 所 示 。 





1. 第 0 层 的 两 个 神经 元 接收 输入 信号 ， 并 将 信号 发 送 至 第 1 层 的 神经 元 。 
2. 第 1 层 的 神经 元 将 信号 发 送 至 第 2 层 的 神经 元 ， 第 2 层 的 神经 元 输出 yy。 





这 种 2 层 感 知 机 的 运行 过 程 可 以 比 作 流 水 线 的 组 厂 作 业 。 第 1 段 (第 1 层 ) 
的 工人 对 传送 过 来 的 零件 进行 加 工 ， 完 成 后 再 传送 给 第 2 段 (第 2 层 ) 的 工人 。 
第 2 层 的 工人 对 第 1 层 的 工人 传 过 来 的 零件 进行 加 工 ， 完 成 这 个 零件 后 出 货 
(输出 )。 

像 这 样 ， 在 异 或 门 的 感知 机 中 ， 工 人 之 间 不 断 进 行 零件 的 传送 。 通 过 这 
样 的 结构 (2 层 结构 )， 感 知 机 得 以 实现 异 或 门 。 这 可 以 解释 为 “ 单 层 感知 机 
无 法 表示 的 东西 ， 通 过 增加 一 层 束 可 以 解决 "。 也 就 是 说 ,通过 合 加 层 OA 
层 )， 感 知 机 能 进行 更 加 灵活 的 表示 。 
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2.6 ”从 与 非 门 到 计算 机 


多 层 感 知 机 可 以 实现 比 之 前 见 到 的 电路 更 复杂 的 电路 。 比 如 ， 进 行 加 法 
运算 的 加 法 备 也 可 以 用 感知 机 实现 。 此 外 ,将 二 进 制 转换 为 十 进 制 的 编码 各 、 
满足 某 些 条 件 就 输出 1 的 电路 (用 于 等 价 检验 的 电路 ) 等 也 可 以 用 感知 机 表示 。 
实际 上 ， 使 用 感知 机 甚至 可 以 表示 计算 机 ! 

计算 机 是 处 理 信息 的 机 融 。 回 计算 机 中 输入 一 些 信息 后 ， 它 会 按照 某 种 
既定 的 方法 进行 处 理 ， 然 后 输出 绪 末 。 所 谓 “ 按 照 茶 种 既定 的 方法 进行 处 理 ” 
是 指 ， 计 算 机 和 感知 机 一 样 ， 也 有 输入 和 输出 ， 会 按照 某 个 既定 的 规则 进行 
计算 。 

人 们 一 般 会 认为 计算 机 内 部 进行 的 处 理 非常 复杂 ， 而 令 人 慰 讶 的 是 ， 实 
际 上 只 需要 通过 与 非 门 的 组 合 ， 就 能 再 现 计 算 机 进行 的 处 理 。 这 一 令 人 吃惊 
的 事实 说 明了 什么 呢 ? 说 明 使 用 感知 机 也 可 以 表示 计算 机 。 前 面 也 介绍 了 ， 
与 非 门 可 以 使 用 感知 机 实现 。 也 就 是 说 ， 如 采 通 过 组 合 与 非 门 可 以 实现 计算 
机 的 话 ， 那 么 通过 组 合 感知 机 也 可 以 表示 计算 机 (感知 机 的 组 合 可 以 通过 一 
加 了 多 层 的 单 层 感知 机 来 表示 )。 


` 











说 到 仅 通 过 与 非 门 的 组 合 就 能 实现 计算 机 ， 大 家 也 许 一 下 子 很 难 相信 。 
建议 有 兴趣 的 读者 看 一 下 《计算 机 系统 要 素 ， 从 零 开 始 构建 现代 计 
算 机 》。 这 本 书 以 深入 理解 计算 机 为 主题 ， 论 述 了 通过 NAND 构建 可 
运行 俄罗斯 方块 的 计算 机 的 过 程 。 此 书 能 让 读者 真实 体会 到， 通过 
简单 的 NAND 元 件 就 可 以 实现 计算 机 这 样 复杂 的 系统 。 





综 上 ， 多 层 感 知 机 能 够 进行 复杂 的 表示 ， 甚 至 可 以 构建 计算 机 。 那 么 ， 
什么 构造 的 感知 机 才能 表示 计算 机 呢 ? 层 级 多 深 才 可 以 构建 计算 机 呢 ? 

理论 上 可 以 说 2 层 感知 机 就 能 构建 计算 机 。 这 是 因为 ,， 已 有 人 研究 证 明 ， 
2 层 感 知 机 (严格 地 说 是 激活 函数 使 用 了 非 线 性 的 sigmoid 函数 的 感知 机 ， 具 
体 请 参照 下 一 章 ) 可 以 表示 任意 函数 。 但 是 ， 使 用 2 层 感 知 机 的 构造 ， 通 过 
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设 定 合 适 的 权重 来 构建 计算 机 是 一 件 非 常 紫 人 的 事情 。 实 际 上 ， 在 用 与 非 门 
等 低层 的 元 件 构 建 计 算 机 的 情况 下 ， 分 阶段 地 制作 所 需 的 零件 (模块 ) 会 比 
较 目 然 ， 即 先 实现 与 门 和 或 门 ， 然 后 实现 半 加 融和 全 加 需 ， 接 着 实现 算数 逻 
辑 单 元 (ALU),， 然后 实现 CPU。 因 此 ,通过 感知 机 表示 计算 机 时 ,使 用 蔡 
加 了 多 层 的 构造 来 实现 是 比较 目 然 的 流程 。 

本 书 中 不 会 实际 来 实现 计算 机 ,但 是 希望 读者 能 够 记 住 ,感知 机 通过 鞋 
加 层 能 够 进行 非 线性 的 表示 ， 理 论 上 还 可 以 表示 计算 机 进行 的 处 理 。 














2.7 ”小结 








本 章 我 们 学 习 了 感知 机 。 感 知 机 是 一 种 非常 简单 的 算法 ， 大 家 应 该 很 快 
就 能 理解 它 的 构造 。 感 知 机 是 下 一 章 要 学 习 的 神经 网 络 的 基础 ， 因 此 本 章 的 
内 容 非 常 重要 。 











本 章 所 学 的 内 容 
感知 机 是 具有 输入 和 输出 的 算法 。 给 定 一 个 输入 后 ， 将 输出 一 个 既 
定 的 值 。 
感知 机 将 权重 和 偏 置 设 定 为 参数 。 


使 用 感知 机 可 以 表示 与 门 和 或 门 等 逻辑 电路 。 

异 或 门 无 法 通过 单 层 感知 机 来 表示 。 

使 用 2 层 感 知 机 可 以 表示 异 或 门 。 

单 层 感知 机 只 能 表示 线性 空间 ， 而 多 层 感 知 机 可 以 表示 非 线 性 空间 。 
多 层 感知 机 (在 理论 上 ) 可 以 表示 计算 机 。 
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上 一 半 我 们 学 习 了 感知 机 。 关 于 感知 机 ， 妹 有 好 消 娠 ， 也 有 坏 消息 。 好 
消 乱 是， 即便 对 于 复杂 的 函数 ,感知 机 也 隐 含 着 能 够 表示 它 的 可 能 性 。 上 一 
章 已 经 介绍 过 ， 即 便 是 计算 机 进行 的 复杂 处理, 感知 机 (理论 上 ) 也 可 以 将 
其 表示 出 来 。 坏 消息 是 ， 设 定 权 重 的 工作 ， 即 确定 合适 的 、 能 符合 预期 的 输 
入 与 输出 的 权重 ， 现 在 还 是 由 人 工 进 行 的 。 上 一 章 中 ， 我 们 结合 与 门 、 或 门 
的 真 值 表 人 工 决定 了 合适 的 权重 。 

神经 网 络 的 出 现 就 是 为 了 解决 刚才 的 坏 消息 。 上 有 具体 地 讲 ， 神 经 网 络 的 一 
个 重要 性 质 是 它 可 以 目 动 地 从 数据 中 学 习 到 合适 的 权重 参数 。 本 章 中 ， 我 们 
会 先 介绍 神经 网 络 的 概要 ， 然 后 重点 关注 神经 网 络 进行 识别 时 的 处 理 。 在 下 
一 曹 中， 我 们 将 了 解 如 何 从 数据 中 学 习 权重 参数 。 








3.1 从 感知 机 到 神经 网 络 


神经 网 络 和 上 一 章 介 绍 的 感知 机 有 很 多 共同 点 。 这 里 ， 我 们 主要 以 两 者 
的 差异 为 中 心 ， 来 介绍 神经 网 络 的 结构 。 
3.1.1 神经 网 络 的 例子 


用 图 来 表示 神经 网 络 的 话 ， 如 图 3-1 所 示 。 我 们 把 最 左边 的 一 列 称 为 
输入 层 ， 最 右边 的 一 列 称 为 输出 层 ， 中 间 的 一 列 称 为 中 间 层 。 中 间 层 有 时 
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也 称 为 隐藏 层 。“ 隐 藏 ”一 词 的 意思 是 ， 隐 藏 层 的 神经 元 (和 输入 层 、 输 出 
层 不 同 ) 肉眼 看 不 见 。 男 外 ， 本 书 中 把 输入 层 到 输出 层 依 次 称 为 第 0 层 、 第 
1 层 、 第 2 层 ( 层 号 之 所 以 从 0 开始 , 是 为 了 方便 后 面 基于 Python 进行 实现 )。 
图 3-1 中 ,第 0 层 对 应 输入 层 ， 第 1 层 对 应 中 间 层 ， 第 2 层 对 应 输出 层 。 























中 间 层 
输入 层 输出 层 
3-1 神经 网 络 的 例子 
e | 3-1 中 的 网 络 一 共 由 3 层 神经 元 构成 ,但 实质 上 只 有 2 层 神经 





Mm | 元 有 权重 ， 因 此 将 其 称 为 “2 层 网 络 "。 请 注意 ， 有 的 书 也 会 根据 

(7S N 构成 网 络 的 层 数 ， 把 图 3-1 的 网 络 称 为 “3 层 网 络 "。 本 书 将 根据 
实质 上 拥有 权重 的 层 数 (输入 层 、 隐 藏 层 、 输 出 层 的 总 数 减 去 1 
后 的 数量 ) 来 表示 网 络 的 名 称 。 


只 看 图 3-1 的话 ， 神 经 网 络 的 形状 类 似 上 一 章 的 感知 机 。 实 际 上 ， 就 神 
经 元 的 连接 方式 而 言 ， 与 上 一 章 的 感知 机 并 没有 任何 差异 。 那 么 ， 神 经 网 络 
中 信号 是 如 何 传递 的 呢 ? 
3.1.2 ”复习 感知 机 


在 观察 神经 网 络 中 信号 的 传递 方法 之 前 ， 我 们 先 复习 一 下 感知 机 。 现 在 
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来 思考 一 下 图 3-2 中 的 网 络 结构 。 


3-2 复习 感知 机 


图 3-2 中 的 感知 机 接收 zi 和 zs 两 个 输入 信号 ， 输出 y。 如 果 用 数学 式 来 
表示 图 3-2 中 的 感知 机 ， 则 如 式 (3.1) 所 示 。 


0 (b+ wizi + wer2 < 0) 
(3.1) 


1 (b+ wizi + wer2 > 0) 











是 被 称 为 偏 置 的 参数 ， 用 于 控制 神经 元 被 激活 的 容易 程度 ; mw, ws 
是 表示 各 个 信号 的 权重 的 参数 ， 用 于 控制 各 个 信号 的 重要 性 。 

顺便 提 一 下 ， 在 图 3-2 的 网 络 中 , 偏 置 8 并 没有 被 画 出 来 。 如 有 果 要 明确 
地 表示 出 5， 可 以 像 图 3-3 那 样 做 。 图 3-3 中 添加 了 权重 为 6 的 输入 信号 1。 这 
个 感知 机 将 xz1、7x，、1 三 个 信号 作为 神经 元 的 输入 , 将 其 和 各 自 的 权重 相 乘 后 ， 
传送 至 下 一 个 神经 元 。 在 下 一 个 神经 元 中 ,计算 这 些 加 权 信 号 的 总 和 。 如 果 
这 个 总 和 超过 0,， 则 输出 1， 和 否则 输出 0。 另 外 ,由 于 偏 置 的 输入 信和 号 一 直 是 1, 
所 以 为 了 区 别 于 其 他 神经 元 ， 我 们 在 图 中 把 这 个 神经 元 整个 涂 成 灰色 。 

现在 将 式 (3.1) 改 写成 更 加 简洁 的 形式 。 为 了 简化 式 (3.1)， 我们 用 一 个 
函数 来 表示 这 种 分 情况 的 动作 (超过 0 则 输出 1， 否 则 输出 0)。 引 入 新 函数 
h(x), KA (3.1) 改写 成 下 面 的 式 (3.2) FISK (3.3). 




















y= h(b-- wy + Way) ro) 
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3-3 ”明确 表示 出 偏 置 


0 e 
=d | (3.3) 


式 (3.2) 中 , 输入 信号 的 总 和 会 被 郴 数 几 z) 转换 ， 转 换 后 的 值 就 是 输出 y。 
然后 , 式 (3.3) 所 表示 的 函数 h(x), 在 输入 超过 0 时 返回 1, 否则 返回 0。 因 此 ， 
式 (3.1) 和 式 (3.2)、 式 (3.3) 做 的 古 相 同 的 事情 。 


3.1.3 ”激活 国 数 登场 
刚才 登场 的 h(x) 函数 会 将 输入 信号 的 总 和 转换 为 输出 信号 ， 这 种 函 
一 般 称 为 激活 函数 (activation function)。 如 “激活 ”一 词 所 示 ， 激 活 函 数 的 
作用 在 于 决定 如 何 来 激活 输入 信号 的 总 和 。 
现在 来 进一步 改写 式 (3.2)。 式 (3.2) 分 两 个 阶段 进行 处 理 ， 先 计算 输入 
信号 的 加 权 总 和 ， 然 后 用 激活 函数 转换 这 一 总 和 。 因 此 ， 如 果 将 式 (3.2) 写 
得 详细 一 上 后， 则 可 以 分 成 下 面 两 个 式 子 。 
a = b + wir, + Wor (3.4) 
y = h(a) (3.5) 


E26, (03.4) 7 fei A A, Na Ia, 3.5) 
HH n) 函数 将 a 转换 为 输出 y。 
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之 前 的 神经 元 都 是 用 一 个 DO 表示 的 ， 如 果 要 在 图 中 明确 表示 出 式 (3.4) 
和 和 式 (3.5)， 则 可 以 像 图 3-4 这 样 做 。 





图 3-4 明确 显示 激活 函数 的 计算 过 程 


如 图 3-4 所 示 ， 表 示人 神 经 元 的 〇 中 明确 显示 了 激活 函数 的 计算 过 程 ， 即 
言 号 的 加 权 总 和 为 太太 a, AJ 13 8, a ABO C S PROC) 转换 成 节点 y。 本 书 中 ,“ 神 
经 元 ”和 “节点 ”两 个 术语 的 含义 相同 。 这 里 ， 我 们 称 w 和 yY 为 “节点 ”， 其 实 
它 和 之 前 所 说 的 “神经 元 ”含义 相同 。 

通常 如 图 3-5 的 左 图 所 示 ， 神 经 元 用 一 个 表示 。 本 书 中 ， 在 可 以 明确 
神经 网 络 的 动作 的 情况 下 ， 将 在 图 中 明确 显示 激活 函数 的 计算 过 程 ， 如 图 3-5 
的 右 图 所 示 。 








3-5 ” 左 图 是 一 般 的 神经 元 的 图 , 右 图 是 在 神经 元 内 部 明确 显示 激活 函数 的 计算 过 程 的 图 (a 
表示 输入 信号 的 总 和 和 ，h() 表示 激活 函数 ，y 表 示 输 出 ) 
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下 面 ， 我 们 将 仔细 介绍 激活 函数 。 激 活 函 数 是 连接 感知 机 和 神经 网 络 的 
桥梁 。 


pg 一 ”本 书 在 使 用 “感知 机 " 一 词 时 ， 没 有 严格 统一 它 所 指 的 算法 。 一 

Jh. | RTS, RRI 是 指 单 层 网 络 ， 指 的 是 激活 函数 使 用 了 阶 

JAN 跃 函数 的 模型 。" 多 层 感知 机 " 是 指 神经 网 络 ， 即 使 用 sigmoid 
函数 (后 述 ) 等 平滑 的 激活 函数 的 多 层 网 络 。 








32 ium 


式 (3.3) 表 示 的 激活 函数 以 国 值 为 界 ， 一 旦 输入 超过 国 值 ， 就 切换 输出 。 
这 样 的 函数 称 为 “ 阶 跃 函数 "。 因 此 ， 可 以 说 感知 机 中 使 用 了 阶 路 函数 作为 
激活 函数 。 也 就 是 说 , 在 激活 函数 的 众多 候选 函数 中 , 感知 机 使 用 了 阶 跃 函数 。 
那么 ， 如 琳 感 知 机 使 用 其 他 函数 作为 激活 函数 的 话 会 走 么 样 呢 ”实际 上 ， 如 
果 将 激活 也 数 从 阶 路 函数 换 成 其 他 函数 ， 就 可 以 进入 神经 网 络 的 世界 了。 下 
面 我 们 就 来 介绍 一 下 神经 网 络 使 用 的 激活 函数 。 


3.2.1 sigmoid 函数 


神经 网 络 中 经 常 使 用 的 一 个 激活 函数 就 是 式 (3.6) 表 示 的 sigmoid 函数 


(sigmoid function). 


1 


= eee) (3.6) 


h(x) 





3X (3.6) PH exp(—2x) KIR e “的 意思 。e 是 纳 皮 尔 常 数 2.7182.…….。 式 (3.6) 
表示 的 sigmoid 图 数 看 上 去 有 些 复杂 ， 但 它 也 仅仅 是 个 郴 数 而 已 。 而 函数 就 是 
给 定 某 个 输入 后 , 会 返回 某 个 输出 的 转换 需 。 比 如 , [8] sigmoid 函数 输入 1.0 或 2.0 
后 ， 就 会 有 某 个 值 被 输出 ， 类 似 h(1.0) = 0.731---, A(2.0) = 0.880… .这样 。 

神经 网 络 中 用 sigmoid 函数 作为 激活 函数 ， 进 行 信号 的 转换 ， 转 换 后 的 

















CD 阶 跃 函数 是 指 一 旦 输入 超过 闵 值 ， 就 切换 输出 的 函数 。 
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言 号 被 传送 给 下 一 个 神经 元 。 实 际 上 ， 上 一 草 介 绍 的 感知 机 和 接 下 来 要 介绍 
的 神经 网 络 的 主要 区 别 就 在 于 这 个 激活 函数 。 其 他 方面 ， 比 如 神经 元 的 多 层 
连接 的 构造 、 信 号 的 传递 方法 等 ， 基 本 上 和 感知 机 是 一 样 的 。 下 面 ， 让 我 们 
通过 和 阶 路 函数 的 比较 来 详细 学 习作 为 激活 函数 的 sigmoid 函数 。 





3.2.2 ARRAZA 

KERTAA JH Python MH tfi HER RZS A) CPUs, EA PR TE TROT 
理解 函数 而 言 很 重要 )。 阶 路 水 数 如 式 (3.3) 所 示 ， 当 输入 超过 0 时 ,输出 1， 
否则 输出 0。 可 以 像 下 面 这 样 简 单 地 实现 阶 路 末 数 。 





def step function(x): 
if x > 0: 
return 1 
else: 
return 0 


这 个 实现 简单 、 史 于 理解 ， 但 是 参数 x 只 能 接受 实数 ( 浮 点 数 )。 也 就 是 
说 ， 人 允许 形 如 step_function(3.0) 的 调用 ， 但 不 允许 参数 取 NumPy 数 组 ， 例 
如 step_function(np.array([1.0，2.0]))。 为 了 便于 后 面 的 操作 ， 我 们 把 它 修 
改 为 支持 NumPy 数 组 的 实现 。 为 此 ， 可 以 考虑 下 述 实现 。 





def step function(x): 
y=x>0 
return y.astype(np.int) 
上 述 函 数 的 内 容 只 有 两 行 。 由 于 使 用 了 NumPy 中 的 “技巧 "， 可 能 会 有 
点 难 理解 。 下 面 我 们 通过 Python 解释 融 的 例子 来 看 一 下 这 里 用 了 什么 技巧 。 
下 面 这 个 例子 中 准备 了 NumPy 数 组 x， 并 对 这 个 NumPy 数 组 进行 了 不 等 号 


运算 。 








>>> import numpy as np 

>>> x = np.array([-1.0, 1.0, 2.0]) 
>>> X 

array([-1., ls, 2.]) 

>>> y=x > 0 
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>>> y 
array([False, True, True], dtype-bool) 











对 NumPy 数 组 进行 不 等 号 运算 后 , 数组 的 各 个 元 素 都 会 进行 不 等 号 运算 ， 
生成 一 个 布尔 型 数组 。 这 里 ， 数 组 x 中 大 于 0 的 元 素 被 转换 为 True， 小 于 等 
于 0 的 元 系 被 转换 为 Fatse， 从 而 生成 一 个 新 的 数组 y。 

数组 y 是 一 个 布尔 型 数组 ， 但 是 我 们 想 要 的 阶 路 函数 是 会 输出 int 型 的 0 
或 1 的 函数 。 因 此 ， 需 要 把 数组 y 的 元 系 类 型 从 布尔 型 转换 为 int 型 。 











>>> y = y.astype(np.int) 
>>> y 


array([0, 1, 1]) 





如 上 所 示 ， 可 以 用 astype() 方 法 转换 NumPy 数 组 的 类 型 。astype() 方 
法 通过 参数 指定 期 望 的 类 型 ， 这 个 例子 中 是 np.int 型 。Python 中 将 布尔 型 
转换 为 int 型 后 ，True 会 转换 为 1，False 会 转换 为 0。 以 上 就 是 阶 跃 函数 的 
实现 中 所 用 到 的 NumPy B9 "3:35". 


3.2.3 MARRA ER 
下 面 我 们 就 用 图 来 表示 上 面 定 义 的 阶 跃 函数, 为 此 需要 使 用 matplotlib 库 。 





import numpy as np 
import matplotlib.pylab as plt 


def step function(x): 
return np.array(x > 0, dtype=np.int) 


x = np.arange(-5.0, 5.0, 0.1) 

y = step function(x) 

plt.plot(x, y) 

plt.ylim(-0.1, 1.1) # 指定 y 轴 的 范围 

plt.show() 

np.arange(-5.0, 5.0, 0.1) 在 一 5.0 到 5.0 的 范围 内 ， 以 0.1 为 单位 ， 生 成 
NumPy ZH ([-5.0, -4.9, «++, 4.9]), step function() 以 该 NumPy 数 组 为 
参数 ， 对 数组 的 各 个 元 率 执 行 阶 跃 洱 数 运算 ， 并 以 数组 形式 返回 运算 结 
对 数组 x、y 进 行 绘图 ， 结 果 如 图 3-6 所 示 。 
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图 3-6 ” 阶 跃 函数 的 图 形 


如 图 3-6 所 示 ， 阶 路 函数 以 0 为 界 , 输出 从 0 切换 为 1( 或 者 从 1 切换 为 0)。 
它 的 值 呈 阶梯 式 变 化 ， 所 以 称 为 阶 跃 函数 。 


3.2.4 sigmoid 函数 的 实现 


下 面 ， 我 们 来 实现 sigmoid 函数 。 用 Python 可 以 像 下 面 这 样 写 出 式 (3.6) 
表示 的 sigmoid PRA, 

def sigmoid(x): 

return 1 / (1 + np.exp(-x)) 

IX A, np.exp(-x) 对 应 exp( 一 x)。 这 个 实现 没有 什么 特别 难 的 地 方 ， 但 
是 要 注意 参数 x 为 NumPy 数组 时 ,结果 也 能 被 正确 计算 。 实 际 上 ， 如 果 在 
这 个 sigmoid 函数 中 输入 一 个 NumPy 数 组 ， 则 结果 如 下 所 示 。 

>>> X = np.array([-1.0, 1.0, 2.0]) 


>>> sigmoid (x) 
array([ 0.26894142, 0.73105858, 0.88079708]) 
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之 所 以 sigmoid 函数 的 实现 能 文 持 NumPy 数 组， 秘密 丈 在 于 NumPy 的 
广播 功能 (1.5.5 5), 根据 NumPy 的 广播 功能 ， 如 末 在 标量 和 NumPy 数 组 
之 间 进 行 运算 ， 则 标量 会 和 NumPy 数 组 的 各 个 元 系 进 行 运算 。 这 里 来 看 一 
个 具体 的 例子 。 





>>> t = np.array([1.0, 2.0, 3.0]) 

>>> 1.0 + t 

array([ 2., 3., 4.]) 

>>> 1.0 / t 

array([ 1. ; 0.5 , 90.33333333]) 





在 这 个 例子 中 ,标量 (例子 中 是 1.9) 和 NumPy 数 组 之 间 进 行 了 数值 运 
算 (+、/ 等 )。 结果, 标量 和 NumPy 数 组 的 各 个 元 素 进行 了 运算 ,运算 结 
采 以 NumPy 数 组 的 形式 被 输出 。 刚 才 的 sigmoid 函数 的 实现 也 是 如 此 ， 
为 np.exp(-x) 会 生成 NumPy 数 组 ， 所 以 1 / (1 + np.exp(-x)) 的 运算 将 会 在 
NumPy 数 组 的 各 个 元 素 间 进行 。 

P 面 我 们 把 sigmoid 函数 画 在 图 上 。 夯 图 的 代码 和 刚才 的 阶 跃 函数 的 代 
码 几乎 是 一 样 的 ， 唯 一 不 同 的 地 方 是 把 输出 y 的 函数 换 成 了 sigmoid 函数 。 


| 











ES 








EX 


x - np.arange(-5.0, 5.0, 0.1) 

y = sigmoid(x) 

plt.plot(x, y) 

plt.ylim(-0.1, 1.1) # 指定 y 轴 的 范围 
plt.show() 


运行 上 面 的 代码 ， 可 以 得 到 图 3-7. 


32.5 sigmoid 函数 和 阶 跃 函数 的 比较 


现在 我 们 来 比较 一 下 sigmoid 丽 数 和 阶 跃 郴 数 ， 如 图 3-8 所 示 。 两 者 的 
不 同 点 在 哪里 呢 ? 又 有 哪些 共同 点 呢 ? 我 们 通过 观察 图 3-8 来 思考 一 下 。 

观察 图 3-8， 首 先 注意 到 的 是 “平滑 性 ”的 不 同 。sigmoid ph GE — AF 
滑 的 曲线 ,输出 随 着 输入 发 生 连续 性 的 变化 。 而 阶 跃 孔 数 以 0 为 界 ， 输 出 发 
生 和 急剧 性 的 变化 。sigmoid 函数 的 平滑 性 对 神经 网 络 的 学 习 具 有 重要 意义 。 
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3-7 sigmoid 国 数 的 图 形 





3-8 BERETS sigmoid 函数 (虚线 是 阶 路 消 数 ) 
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APA A ae, FETE eR eR ACR BE In] OBK 1, sigmoid PRI n] Lik 
E] 0.731---, 0.880 … :等 实数 (这 一 点 和 刚才 的 平滑 性 有 关 )。 也 就 是 说 ， 感 
笃 元 之 同 流动 的 是 0 或 1 的 二 元 信号 ， 而 神经 网 络 中 流动 的 是 连续 








实数 值 信号 。 
如 果 把 这 两 个 函数 Md TU TER PRACT PA Eb "PERSE, 
sigmoid 函数 可 以 比 作 “水 车 ”。 PR CR fel ma RE, i A feu 


水 (0 或 1) 两 个 动作 ， Ina seinen. 样 ， 根 据 流 过 来 的 水 量 相应 
地 调整 传送 出 去 的 水 量 。 

接着 说 一 下 阶 跃 函数 和 sigmoid 函数 的 共同 性 质 。 阶 跃 函数 和 sigmoid 
函数 虽然 在 平滑 性 上 有 差异 ,但 是 如 果 从 宏观 视角 看 图 3-8， 可 以 发 现 它们 
具有 相似 的 形状 。 实 际 上 ， 两 者 的 结构 均 是 “输入 小 时 ， 输 出 接近 0( 为 0); 
随 着 输入 增 大 , 输出 向 1 靠近 ( 变 成 1 。 也 就 是 说 , 当 输入 even 
BIER RAC sigmoid 函数 都 会 输出 较 大 的 值 ;， 当 输入 信和 号 为 不 重要 的 信息 
两 者 都 输出 较 小 的 值 。 还 有 一 个 共同 点 是 ,不管 输入 信号 有 多 小 ， ng 多 
大 ， 输 出 信号 的 值 都 在 0 到 1 之 间 。 














3.2.6” 非 线性 函数 


ET EK pk RAM sigmoid 汪 数 还 有 其 他 共同 点 ， 驶 是 两 者 均 为 非 线 性 函数 。 
sigmoid 函数 是 一 条 曲线 ， 阶 路 了 数 是 一 条 像 阶梯 一 样 的 折线 ， 两 者 部 属于 
FEAR HE AY PRIA 





在 介绍 激活 函数 时 , ABLES “AEM RSL” FO “APEC” 等 术语 。 

函数 本 来 是 输入 有 某 个 值 后 会 返回 一 个 值 的 转换 器 。 向 这 个 转换 器 输 
入 某 个 值 后 ， 输 出 值 是 输入 值 的 单数 倍 的 函数 称 为 线性 函数 ( 用 数学 
式 表 示 为 h(x) = exe cx). 因此， 线性 函数 是 一 条 笔直 的 直线 。 
而 非 线性 函数 ， 顾 名 思 义 ， 指 的 是 不 像 线 性 函数 那样 呈现 出 一 条 直 
ZA PA BX 








CD Pma AAI — PEE. SORT, i PO, AO FE ERK, 
KPA Ja asin PSE, CR, Jon, In AEB, ARKH, ——P LE 
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神经 网 络 的 激活 函数 必须 使 用 非 线性 函数 。 换 名 话说， 激活 函数 不 能 使 
用 线性 函数 。 为 什么 不 能 使 用 线性 函数 呢 ? 因为 使 用 线性 函数 的 话 ， 加 深 神 
经 网 络 的 层 数 就 没有 意义 了 。 

线性 函数 的 问题 在 于 ,不 管 如何 加 深层 数 ， 总 是 存在 与 之 等 效 的 “无 
隐藏 层 的 神经 网 络 ”。 为 了 具体 地 (稍微 直观 地 ) 理 解 这 一 点 , 我们 来 思 
考 下 面 这 个 简单 的 例子 。 这 里 我 们 考虑 把 线性 函数 h(x) = cz 作为 激活 
函数 ， 把 y(z) = h(h(h(zx))) 的 运算 对 应 3 层 神经 网 络 ~。 这 个 运算 会 进行 
y(r) 二 c xc xcxz 的 乘法 运算 , 但 是 同样 的 处 理 可 以 由 y(x) = ax GER, 
a = 二 0，) 这 一 次 乘法 运算 ( 即 没 有 隐藏 层 的 神经 网 络 ) 来 表示 。 如 本 例 所 示 ， 
使 用 线性 函数 时 ， 无 法 发 挥 多 层 网 络 带 来 的 优势 。 因 此 ， 为 了 发 挥 琶 加 层 所 
带 来 的 优势 ， 激 活 函 数 必须 使 用 非 线性 函数 。 








3.2.7 ReLU RR 


到 目前 为 止 ， REINA T EATS PRC TERK PRAT sigmoid 函数 。 在 
神经 网 络 发 展 的 历史 上 ，sigmoid 函数 很 早 就 开始 被 使 用 了 了， 而 最 近 则 主要 
使 用 ReLU (Rectified Linear Unit) KIX. 

ReLU reves AKT OW, Aiki hA; 在 输入 小 于 等 于 0 时 ， 输 
出 0( 图 3-9)。 

ReLU 也 数 可 以 表示 为 下 面 的 式 (3.7) « 





= Che 
Qn | 3-9 Ask (3.7) Aras, ReLU A 2 X — A47 dE 2$ fa FAY eR. CA EE, 


ReLU 函数 的 实现 也 很 简单 ， 可 以 写成 如 下 形式 。 


def relu(x): 
return np.maximum(0, x) 


D 该 对 应 只 是 一 个 近似 ， 实 际 的 神经 网 络 运算 比 这 个 例子 要 复杂 ， 但 不 影响 后 面 的 结论 成 立 。 
一 一 译 者 注 
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3-9 ReLU AX 


这 里 使 用 了 NumPy fy maximum PK% maximum 函数 会 从 输入 的 数 信 中 选 
择 较 大 的 那个 值 进行 输出 。 

本 章 剩 余部 分 的 内 容 仍 将 使 用 sigmoid 函数 作为 激活 函数 ， 但 在 本 书 的 
后 半 部 分 ， 则 将 主要 使 用 ReLU 函数 。 


33 多维 数组 的 运算 


如 果 掌 握 了 NumPy 多维 数 组 的 运算 , 就 可 以 高 效 地 实现 神经 网 络 。 因 此 ， 
本 市 将 介绍 NumPy 多 维 数组 的 运算 ， 然 后 再 进行 神经 网 络 的 实现 。 





3.3.1 多维 数组 

人 简单 地 讲 ， 多 维 数组 就 是 “数字 的 集合 "， 数 字 排 成 一 列 的 集合 、 排 成 
长 方形 的 集合 、 排 成 三 维 状 或 者 (更 加 一 般 化 的 )N 维 状 的 集合 都 称 为 多 维 数 
组 。 下 面 我 们 就 用 NumPy 来 生成 多 维 数组 , 先 从 前 面 介 绍 过 的 一 维 数组 开始 。 
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>>> import numpy as np 
>>> A = np.array([1, 2, 3, 4]) 
>>> print(A) 


[1 2 3 4] 
>>> np.ndim(A) 
1 


>>> A.shape 
(4,) 

>>> A.shape[0] 
4 


如 上 所 示 ， 数 组 的 维 数 可 以 通过 np.dim() 函数 获得 。 此 外 ， 数 组 的 形状 
可 以 通过 实例 变量 shape 获 得 。 在 上 面 的 例子 中 ，A 是 一 维 数组 ， 由 4 个 元 素 
构成 。 注 意 ， 这 里 的 A.shape 的 结 采 是个 元 组 (tuple), 这 是 因为 一 维 数 组 的 
情况 下 也 要 返回 和 多 维 数组 的 情况 下 一 致 的 结 末 。 例 如 ， 二 维 数组 时 返回 的 
是 元 组 (4,3)， 三 维 数组 时 返回 的 是 元 组 (4,3,2) ， 因 此 一 维 数组 时 也 同样 以 
元 组 的 形式 返回 结果 。 下 面 我 们 来 生成 一 个 二 维 数 组 。 





>>> B = np.array([[1,2], [3,4], [5,6]]) 
>>> print(B) 
LEX. 2] 
[3 4] 
[5 6]] 
>>> np.ndim(B) 
2 
>>> B.shape 
(95 2) 


这 里 生成 了 一 个 3 x 2 的 数组 B。3 x 2 的 数组 表示 第 一 个 维度 有 3 个 元 素 ， 
第 二 个 维度 有 2 个 元 素 。 男 外 ， 第 一 个 维度 对 应 第 0 维 ， 第 二 个 维度 对 应 第 
1 维 (Python 的 索引 从 0 开始 )。 二 维 数 组 也 称 为 矩阵 (matrix)。 如 图 3-10 所 示 ， 
数组 的 横向 排列 称 为 行 (row)， 纵 向 排列 称 为 列 (column), 


3.3.2 ”和 矩阵 乘法 


下 面 ， 我 们 来 介绍 矩阵 (二 维 数组 ) 的 乘积 。 比 如 2 x 2 的 和 矩阵， 其 乘积 
可 以 像 图 3-11 这 样 进行 计算 ( 按 图 中 顺序 进行 计算 是 规定 好 了 的 )。 
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3-10 ”横向 排列 称 为 行 ， 纵 向 排列 称 为 列 


1x5-2x7 


I 2 5] 6 19 22 
3 4 7 84 V3 50 
A B 


3x5+4x7 





3-11 ”和 矩阵 的 乘积 的 计算 方法 





如 本 例 所 示 , 矩阵 的 乘积 是 通过 左边 矩阵 的 行 (横向 ) 和 右边 矩阵 的 列 ( 纵 
向 ) 以 对 应 元 素 的 方式 相 乘 后 再 求 和 而 得 到 的 。 并 且 ， 运 算 的 结果 保存 为 新 
的 多 维 数组 的 元 素 。 比 如 ， 和 A 的 第 1 行 和 BB 的 第 1 列 的 乘积 结果 是 新 数组 的 
第 1 行 第 1 列 的 元 素 ，A 的 第 2 行 和 BB 的 第 1 列 的 结果 是 新 数组 的 第 2 行 第 1 
列 的 元 奈 。 男 外 ， 在 本 书 的 数学 标记 中 ， 和 矩阵 将 用 黑 和 斜体 表示 (比如 ， 和 矩阵 
A)， 以 区 别 于 单个 元 双 的 标量 (比如 ，a 或 5)。 这 个 运算 在 Python 中 可 以 用 
如 下 代码 实现 。 














>>> A = np.array([[1,2], [3,4]]) 
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>>> A.shape 

(2; 2) 

>>> B = np.array([[5,6], [7,8]]) 

>>> B.shape 

(2; 2) 

>>> np.dot(A, B) 

array([[19, 22], 

[43, 50]]) 

XE, AMBE E2 x 2 的 和 矩阵, 它们 的 乘积 可 以 通过 NumPy 的 
np.dot() 函数 计算 (乘积 也 称 为 点 积 )。np.dot() 接收 两 个 NumPy 数 组 作为 参 
数 ， 并 返回 数组 的 乘积 。 这 里 要 注意 的 是 ，np.dot(A，B) 和 np.dot(B，A) 的 
值 可 能 不 一 样 。 和 一 般 的 运算 (+ 或 * 等 ) 不 同 , 矩阵 的 乘积 运算 中 ,操作 数 (A、 
B) 的 顺序 不 同 ， 结 果 也 会 不 同 。 

这 里 介绍 的 是 计算 2 x 2 形状 的 矩阵 的 乘积 的 例子 ， 其 他 形状 的 矩阵 的 
乘积 也 可 以 用 相同 的 方法 来 计算 。 比 如 ，2 x 3 的 矩阵 和 3 x 2 的 矩阵 的 乘积 
可 按 如 下 形式 用 Python 来 实现 。 














>>> A = np.array([[1,2,3], [4,5,6]]) 
>>> A.shape 
(23.3) 
>>> B = np.array([[1,2], [3,4], [5,6]]) 
>>> B.shape 
(3-2) 
>>> np.dot(A, B) 
array([[22, 28], 
[49, 64]]) 


2 x SANFL A AIS x 2 AJE RE B Baie Un] TELA E75 3X SCR, xx Hin BE 
注意 的 是 矩阵 的 形状 (shape)。 具 体 地 讲 ， 和 矩阵 和 A 的 第 1 维 的 元 系 个 数 ( 列 数 ) 
必须 和 和 矩阵 妃 的 第 0 维 的 元 系 个 数 ( 行 数 ) 相 等 。 在 上 面 的 例子 中 ,矩阵 A 
的 形状 是 2 x 3, E BIET ES x 2, EE A 的 第 1 维 的 元 素 个 数 (3) 和 
矩阵 妃 的 第 0 维 的 元 素 个 数 (3) 相 等 。 如 果 这 两 个 值 不 相等 ， 则 无 法 计算 和 矩 
阵 的 乘积 。 比 如 ， 如 果 用 Python 计算 2 x 3 的 矩阵 和 A 和 2 x 2 的 矩阵 C 的 乘 
积 ， 则 会 输出 如 下 错误 。 


>>> C = np.array([[1,2], [3,4]]) 
>>> C.shape 
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(2; 2) 
>>> A.shape 
(2; 3) 
>>> np.dot(A, C) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: shapes (2,3) and (2,2) not aligned: 3 (dim 1) != 2 (dim 0) 


ANERE, FEM A WSE 1 EREE C B5 OER ICR TE — 
致 (维度 的 索引 从 0 开始 )。 也 就 是 说， 在 多 维 数组 的 乘积 运算 中 ， 必 须 使 两 
个 矩阵 中 的 对 应 维度 的 元 素 个 数 一 致 ， 这 一 点 很 重要 。 我 们 通过 图 3-12 再 来 
确认 一 下 


A 


pr: 3x2 





图 3-12 fEXBPERSSERUe Sir, WAAC TES BL 


图 3-12 中 ，3 x 2 的 矩阵 A 和 2 x 4 ARE BAF HIS AYER T 3 x 4 的 
EEC. Andr. FEE A 和 和 矩阵 妃 的 对 应 维度 的 元 素 个 数 必须 保持 一 致 。 
此 外 ,还 有 一 点 很 重要 ， 就 是 运算 结果 的 矩阵 C 的 形状 是 由 矩阵 A 的 行 数 
和 和 矩阵 吾 的 列 数 构成 的 。 

男 外 ， 当 A 是 二 维和 矩阵 、 妃 是 一 维 数组 时 ， 如 图 3-13 所 示 ， 对 应 维度 
的 元 素 个 数 要 保持 一 致 的 原则 依然 成 立 。 

可 按 如 下 方式 用 Python 实现 图 3-13 的 例子 。 


>>> A = np.array([[1,2], [3, 4], [5,6]]) 
>>> A.shape 

(3; 2) 

>>> B = np.array([7,8]) 

>>> B.shape 

(25) 

>>> np.dot(A, B) 

array([23, 53, 83]) 


AB 
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A 


ER: 38x 2 





13-13 AZF, BEAN, tee RS MAAC T 230 8X 


3.3.3 ”神经 网 络 的 内 积 


P 面 我 们 使 用 NumPy 和 矩阵 来 实现 神经 网 络 。 这 里 我 们 以 图 3-14 中 的 人 简 
单 神 经 网 络 为 对 象 。 这 个 神经 网 络 省 略 了 偏 置 和 激活 函数 ， 只 有 权重 。 








图 3-14 ”通过 矩阵 的 乘积 进行 神经 网 络 的 运算 


— BER X. W, YEAR, yE X A WAX M 
维度 的 元 素 个 数 是 否 一 致 ， 这 一 点 很 重要 。 


>>> X = np.array([1, 2]) 
>>> X.shape 
(Ze) 
>>> W = np.array([[1, 3, 5], [2, 4, 6]]) 
>>> print (W) 
[[1 3 5] 
[2 4 6]] 
>>> W.shape 
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(2, 3) 

>>> Y = np.dot(X, W) 
>>> print (Y) 

[5 11 17] 


如 上 所 示 ,， 使 用 np.dot( 多 维 数组 的 点 积 )， 可 以 一 次 性 计算 出 YY 的 结 
这 意味 着 ， 即 便 Y 的 元 素 个 数 为 109 或 1009， 也 可 以 通过 一 次 运算 就 计算 出 
结果 ! 如 有 果 不 使 用 np.dot， 就 必须 单独 计算 Y 的 每 一 个 元 素 (或 者 说 必须 使 
用 for 语 句 )， 非 常 麻 烦 。 因 此 ， 通 过 和 矩阵 的 乘积 一 次 性 完成 计算 的 技巧 ， 在 
实现 的 层面 上 可 以 说 是 非常 重要 的 。 














3.4 3 层 神 经 网 络 的 实现 


现在 我 们 来 进行 神经 网 络 的 实现 。 这 里 我 们 以 图 3-15 的 3 层 神 经 网 络 为 
HR, 实现 从 输入 到 输出 的 (前 癌 ) 处 理 。 在 代码 实现 方面 ,使 用 上 一 市 介 
绍 的 NumPy 多 维 数组。 巧妙 地 使 用 NumPy 数 组 ， 可 以 用 很 少 的 代码 完成 
神经 网 络 的 前 向 处 理 。 


图 3-15 ”3 层 神 经 网 络 : 输入 层 ( 第 0 层 ) 有 2 个 神经 元 , 第 1 个 隐藏 层 (第 1 层 ) 有 3 个 神经 元 ， 
第 2 个 隐藏 层 (第 2 层 ) 有 2 个 神经 元 ， 输 出 层 ( 第 3 层 ) 有 2 个 神经 元 
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3.4.1 符号 确认 

在 介绍 神经 网 络 中 的 处 理 之 前 ， 我 们 先导 入 wl). al? 等 符号 。 这 些 符 
号 可 能 看 上 去 有 些 复 杂 ， 不 过 因为 只 在 本 节 使 用 ， 稍 微 读 一 下 就 跳 过 去 也 问 
BUR 





Fa 本 节 的 重点 是 神经 网 络 的 运算 可 以 作为 矩阵 运算 打包 进行 。 因 为 
Wo. 神经 网 络 各 层 的 运算 是 通过 和 矩阵 的 乘法 运算 打包 进行 的 (从 宏观 
视角 来 考虑 )， 所 以 即便 忘 了 (未 记忆 ) 具 体 的 符号 规则 ， 也 不 影 
响 理 解 后 面 的 内 容 。 





我 们 先 从 定义 符号 开始 。 请 看 图 3-16。 图 3-16 中 只 突出 显示 了 从 输入 层 
神经 元 x, 到 后 一 层 的 神经 元 af 的 权重 。 

如 图 3-16 所 示 ， 权重 和 隐藏 层 的 神经 元 的 右上 角 有 一 个 “(1)”， 它 表示 
权重 和 神经 元 的 层 号 ( 即 第 1 层 的 权重 、 第 1 层 的 神经 元 )。 此 外 ， 权 重 的 右 
下 角 有 两 个 数字 ,它们 是 后 一 层 的 神经 元 和 前 一 层 的 神经 元 的 索引 号 。 比 如 ， 
wh) 表示 前 一 层 的 第 2 个 神经 元 zy 到 后 一 层 的 第 1 个 神经 元 of) 的 权重 。 权 
重 右 下 角 按照 “后 一 层 的 索引 号 、 前 一 层 的 索引 号 ”的 顺序 排列 。 


























第 1 层 的 权重 


前 一 层 的 第 2 个 神经 元 
后 一 层 的 第 1 个 神经 元 





3-16 ”权重 的 符号 
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3.4.2 ”各 层 间 信号 传递 的 实现 


现在 看 一 下 从 输入 层 到 第 1 层 的 第 1 个 神经 元 的 信和 号 传递 过 程 ， 如 图 3-17 
所 示 。 








3-17 ”从 输入 层 到 第 1 层 的 信号 传递 


图 3-17 中 增加 了 表示 偏 置 的 神经 元 “1”。 请 注意 ， 偏 置 的 右 下 角 的 索引 
号 只 有 一 个 。 这 是 因为 前 一 层 的 偏 置 神经 元 (神经 元 “1”) 只 有 一 个 了”。 

为 了 确认 前 面 的 内 容 ， 现 在 用 数学 式 表示 al? 。 aC P xS sur SR 
置 的 和 按 如 下 方式 进行 计算 。 





ah!) = wP r + ws) x» + ps) (3.8) 





J 任何 前 一 层 的 偏 置 神经 元 “1” 都 只 有 一 个 。 偏 置 权重 的 数量 取决 于 后 一 层 的 神经 元 的 数量 (不 包括 
后 一 层 的 侦 置 神经 元 “1”)。 一 一 译 者 注 
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此 外 ， 如 果 使 用 矩阵 的 乘法 运算 ， 则 可 以 将 第 1 层 的 加 权 和 表示 成 下 面 
的 式 (3.9). 


AU = xw" + BY (3.9) 


Hop, AU. x, BU, WY 如 下 所 示 。 
AS = Ge as) a), x= (zi a), Bo = (ot p? bs”) 


(1) (1) (1) 
(1) f Vir War W31 
worm (Sb c cb) 


ib we 
29 32 


下 面 我 们 用 NumPy 多 维 数组 来 实现 式 (3.9)， 这 里 将 输入 信号 、 权 重 、 
偏 置 设置 成 任意 值 。 





X = np.array([1.0, 0.5]) 
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) 
Bl = np.array([0.1, 0.2, 0.3]) 


print(Wl.shape) £ (2, 3) 
print(X.shape) # (2,) 
print(Bl.shape) £ (3,) 


Al = np.dot(X, W1) + B1 








这 个 运算 和 上 一 节 进 行 的 运算 是 一 样 的 。W1 是 2 x 3 的 数组 ，X 是 元 素 个 
数 为 2 的 一 维 数组 。 这 里 ，wL 和 X 的 对 应 维度 的 元 素 个 数 也 保持 了 一 致 。 
接 下 来 ， 我 们 观察 第 1 层 中 激活 函数 的 计算 过 程 。 如 果 把 这 个 计算 过 
用 图 来 表示 的 话 ， 则 如 图 3-18 所 示 。 
如 图 3-18 所 示 ， 隐 藏 层 的 加 权 和 (加 权 信 号 和 偶 置 的 总 和 ) 用 表示 ， 被 
激活 函数 转换 后 的 信号 用 > 表示 。 此 外 ， 图 路 (0) 表示 激活 函数 ， 这 里 我 们 
使 用 的 是 sigmoid 函数 。 用 Python 来 实现 ， 代 码 如 下 所 示 。 








Zl = sigmoid(A1l) 


print(A1) # [0.3, 0.7, 1.1] 
print(Z1) # [0.57444252, 0.66818777, 0.75026011] 
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3-18 ”从 输入 层 到 第 1 层 的 信号 传递 





这 个 sigmoid() 函数 就 是 之 前 定义 的 那个 函数 。 它 会 接收 NumPy 数 组 ， 
并 返回 元 素 个 数 相 同 的 NumPy 数组 。 
下 面 ， 我 们 来 实现 第 1 层 到 第 2 层 的 信号 传递 (图 3-19)。 








W2 
B2 


= np-array([[0:1; 0.4], 10,2, 0,5], 10:3, 09.61 J) 
- np.array([0.1, 0.2]) 

print(Zl.shape) £ (3,) 
print(W2.shape) # (3, 2) 
print(B2.shape) £ (2,) 


A2 
Z2 


np.dot(Z1, W2) + B2 
sigmoid (A2) 


BRT LE h (ZORE T B 2 AFT AC Lb, XPS SE LAT 
才 的 代码 完全 相同 。 由 此 可 知 ， 通 过 使 用 NumPy 数 组 ， 可 以 将 层 到 层 的 信 
号 传递 过 程 人 简单 地 写 出 来 。 
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图 3-19 第 1 层 到 第 2 层 的 信号 传递 


最 后 是 第 2 层 到 输出 层 的 信号 传递 (图 3-20)。 输 出 层 的 实现 也 和 之 前 的 
实现 基本 相同 。 不 过 ， 最 后 的 激活 函数 和 之 前 的 隐藏 层 有 所 不 同 。 


def identity function(x): 


return x 
W3 = np.array([[0.1, 0.3], [0.2, 0.4]]) 
B3 = np.array([0.1, 0.2]) 


A3 = np.dot(Z2, W3) + B3 
Y = identity function(A3) # 或 者 Y = A3 
这 里 我 们 定义 了 identity_ function() KA CU, Bc A "TH AE PRB” ), 24384 
其 作为 输出 层 的 激活 函数 。 恒 等 函 ee 因此 ， 这 个 例子 
中 没有 必要 特意 定义 identity_function()。 这 里 这 样 实现 只 是 为 了 和 之 前 的 
流程 保持 统一 。 另 外 ， 图 3-20 中 ， A 不 同 于 隐 
藏 层 的 激活 函数 h()(o 读 作 sigma)。 
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3-20 ”从 第 2 层 到 输出 层 的 信号 传递 


输出 层 所 用 的 激活 函数 ， 要 根据 求解 问题 的 性 质 决定 。 一 般 地 ， 回 
归 问 题 可 以 使 用 恒 等 函 数 ， 二 元 分 类 问题 可 以 使 用 sigmoid 函 效 ， 
多 元 分 类 问题 可 以 使 用 softmax 函数 。 关 于 输出 层 的 激活 函数 ， 我 
们 将 在 下 一 节 详 细 介 绍 。 





3.4.3 ”代码 实现 小 结 

至 此 ， 我 们 已 经 介绍 完了 3 层 神经 网 络 的 实现 。 现 在 我 们 把 之 前 的 代码 
实现 全 部 整理 一 下 。 这 里 ， 我 们 按照 神经 网 络 的 实现 惯例 ， 只 把 权重 记 为 大 
写字 母 员 1， 其 他 的 ( 偏 置 或 中 间 结 末 等 ) 都 用 小 写字 母 表 示 。 














def init network(): 
network = {} 
network[ 'W1' ] 
network['b1'] 
network['W2'] 
network['b2'] 
network['W3'] 


np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.611) 
np.array([0.1, 0.2, 0.3]) 

np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.611) 
np.array([0.1, 0.2]) 

np.array([[0.1, 0.3], [0.2, 0.4]]) 


35 输出 层 的 设计 | 63 


network['b3'] = np.array([0.1, 0.2]) 
return network 
def forward(network, x): 


Wl, W2, W3 = network['W1'], network['W2'], network[ 'W3' ] 
bl, b2, b3 = network['b1'], network['b2'], network['b3'] 


al = np.dot(x, W1) + bl 
zl = sigmoid(al) 
a2 = np.dot(z1, W2) + b2 
z2 = sigmoid(a2) 
a3 = np.dot(z2, W3) + b3 


y = identity_function(a3) 
return y 


network = init network() 
x = np.array([1.0, 0.5]) 
y = forward(network, x) 
print(y) # [ 0.31682708 0.69627909] 


这 里 定义 了 init network() 和 forward() PC, init network() 函数 会 进 

行 权重 和 偏 置 的 初始 化 ， 并 将 它们 保存 在 字典 变量 network 中 。 这 个 字典 变 
量 network 中 保存 了 每 一 层 所 知 的 参数 (权重 和 偏 置 )。forward() 函数 中 则 封 

装 了 将 输入 信号 转换 为 输出 信号 的 处 理 过 程 。 

另外 ,， 这 里 出 现 了 forward(〈 前 向 ) 一 词 ， 它 表示 的 是 从 输入 到 输出 方向 
的 传递 处 理 。 后 面 在 进行 神经 网 络 的 训练 时 ， 我们 将 介绍 后 疝 (backward, 
从 输出 到 输入 方向 ) 的 处 理 。 

至 此 ， 神 经 网 络 的 前 向 处 理 的 实现 就 完成 了 。 通 过 巧妙 地 使 用 NumPy 
多 维 数 组 ， 我 们 高 效 地 实现 了 神经 网 络 。 








3.5 ”输出 层 的 设计 











神经 网 络 可 以 用 在 分 类 问题 和 回归 问题 上 ， 不 过 需要 根据 情况 改变 输出 
层 的 激活 函数 。 一 般 而 言 ， 回 归 间 题 用 恒 等 函 数 ， 分 类 问题 用 softmax PR. 








64 | 第 3 章 神经 网 络 


机 器 学 习 的 问题 大 致 可 以 分 为 分 类 问题 和 回归 问题 。 分 类 问题 是 数 
据 属 于 哪 一 个 类 别 的 问题 。 比 如 ， 区 分 图 像 中 的 人 是 男性 还 是 女性 
的 问题 就 是 分 类 问题 。 而 回归 问题 是 根据 某 个 输入 预测 一 个 ( 连续 的 ) 
数值 的 问题 。 比 如 ， 根 据 一 个 人 的 图 像 预测 这 个 人 的 体重 的 问题 就 
是 回归 问题 (类似 “57.4kg” 这 样 的 预测 )。 





3.5.1 ” 恒 等 国 数 和 Softmax 函数 


恒 等 羡 数 会 将 输入 按 原 样 输出 ， 对 于 输入 的 信息 ， 不 加 以 任何 改动 地 直 
接 输 出 。 因 此 ， 在 输出 层 使 用 恒 等 函 数 时 ， 输 入 信号 会 原封 不 动 地 被 输出 。 
另外， 将 恒 等 函 数 的 处 理 过 程 用 之 前 的 神经 网 络 图 来 表示 的 话 ， 则 如 图 3-21 
所 示 。 和 前 面 介 绍 的 隐藏 层 的 激活 也 数 一 样 ， 恒 等 孔 数 进行 的 转换 处 理 可 以 
FAR ETE AEN o 

















3-21 TES RAŽI 





分 类 问题 中 使 用 的 softmax KAn H F RB (3.10) KR 
_ exp(ax) 


3 exp(a;) (3.10) 
i=1 





exp(7x) 是 表示 e@ 的 指数 函数 (e 是 纳 皮 尔 常 数 2.7182.….)。 式 (3.10) 表 示 
假设 输出 层 共有 nn 个 神经 元 ,计算 第 k 个 神经 元 的 输出 y。 如 式 (3.10) 所 示 ， 
softmax 函数 的 分 子 是 输入 信号 @j 的 指数 孔 数 ,分母 是 所 有 输入 信号 的 指数 
PRICY RIT o 
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用 图 表示 softmax 函数 的 话 ， 如 图 3-22 所 示 。 图 3-22 中 ，softmax 函数 
的 输出 通过 箭头 与 所 有 的 输入 信号 相连 。 这 是 因为 ， 从 式 (3.10) 可 以 看 出 ， 
输出 层 的 各 个 神经 元 都 受到 所 有 输入 信号 的 影 啊 。 








3-22 softmax BAY 





现在 我 们 来 实现 softmax 函数 。 在 这 个 过 程 中 ,我 们 将 使 用 Python 解 释 
久未 一 确认 结果 。 


>>> a = np.array([0.3, 2.9, 4.0]) 


>>> exp_a = np.exp(a) # 指数 函数 
>>> print(exp_a) 
[ 1.34985881 18.17414537 54.59815003] 


>>> sum exp a = np.sum(exp a) # 指数 函数 的 和 
>>> print(sum exp a) 

74.1221542102 

>>> 

>>> y = exp_a / sum_exp_a 

>>> print(y) 

[ 0.01821127 20.24519181 0.73659691] 


这 个 Python 实现 是 完全 依照 式 (3.10) 进 行 的 ， 所 以 不 需要 特别 的 解释 。 
考虑 到 后 面 还 要 使 用 softmax 函数 ,这 里 我 们 把 它 定 义 成 如 下 的 Python 函数 。 





def softmax(a): 
exp a = np.exp(a) 
Sum exp a = np.sum(exp a) 
y = exp a / Sum exp a 


return y 
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3.5.2 ”实现 softmax AAAA REIN 


上 面 的 softmax 函数 的 实现 虽然 正确 描述 了 式 (3.10)， 但 在 计算 机 的 运算 
上 有 一 定 的 缺陷 。 这 个 缺陷 就 是 溢出 问题 。softmax 本 数 的 实现 中 要 进行 指 
数 函 数 的 和 运算， 但 是 此 时 指数 函数 的 值 很 容易 变 得 非常 大 。 比 如 ，e 的 值 
会 超过 20000，e"" 会 变 成 一 个 后 面 有 40 多 个 0 的 超大 值 ，e 的 结果 会 返回 
一 个 表示 无 穷 大 的 inf。 如 果 在 这 些 超 大 值 之 间 进 行 除法 运算 , 结果 会 出 现 “ 不 
确定 ”的 情况 。 














| 计算 机 处 理 “ 数 ”时 , 数值 必须 在 4 字 届 或 8 字 季 的 有 限 数据 宽度 内 。 
这 意味 着 数 存在 有 效 位 数 ， 也 就 是 说 ， 可 以 表示 的 数值 沁 围 是 有 
限 的 。 因 此 ， 会 出 现 超 大 值 无 法 表示 的 问题 。 这 个 问题 称 为 溢出 ， 
在 进行 计算 机 的 运算 时 必须 (常常 ) 注 意 。 





softmax 吨 数 的 实现 可 以 像 式 (3.11) 这 样 进行 改进 。 


_ exp(ae) |  Cexp(ax) 
2; exp(a;)) © 25 exp(a;) 
exp(ax + log C) 
ud 2 (3.11) 
> ~ exp(a; + log C) 
i=1 
|... exp(ax + C’) 


y, expla; + C’) 
i 


Bc, A (3.11) ENTANA EARE C xxt T FEED 629€ TAL 9 T] ROG 
分 母 和 分 子 习 以 相同 的 常数 ， 所 以 计算 结果 不 变 )。 然 后 ， 把 这 个 C 移 动 到 
指数 限 数 (exp) 中 ， 记 为 log C。 最 后 ， 把 log C ERO — PC. 

式 (3.11) 说 明 ， 在 进行 softmax 的 指数 函数 的 运算 时 ， 加 上 (或 者 减 去 ) 
某 个 常数 并 不 会 改变 运算 的 结果 。 这 里 的 C' 可 以 使 用 任何 值 , 但 是 为 了 防 
止 溢出 ， 一 般 会 使 用 输入 信号 中 的 最 大 值 。 我 们 来 看 一 个 具体 的 例子 。 
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>>> a = np.array([1010, 1000, 990]) 

>>> np.exp(a) / np.sum(np.exp(a)) # softmax 函数 的 运算 

array([ nan, nan, nan]) # 没有 被 正确 计算 

>>> 

>>> c = np.max(a) # 1010 

>>> a =- C 

array([ 0, -10, -20]) 

>>> 

>>> np.exp(a - c) / np.sum(np.exp(a - c)) 

array([ 9.99954600e-01, | 4.53978686e-05, 2.06106005e-09] ) 





如 该 例 所 示 ， 通 过 减 去 输入 信号 中 的 最 大 值 (上 例 中 的 c)， 我 们 发 现 原 
本 为 nan(not a number, 不 确定 ) 的 地 方 ， 现 在 被 正确 计算 了 。 综 上 上， 我 们 
可 以 像 下 面 这 样 实现 softmax PRL. 


def softmax(a): 
c = np.max(a) 
exp a = np.exp(a - c) # 溢出 对 策 
Sum exp a = np.sum(exp a) 
y = exp a / Sum exp a 


return y 


3.5.3 ”softmax 函数 的 特征 
使 用 softmax() 函数 ， 可 以 按 如 下 方式 计算 神经 网 络 的 输出 。 


>>> a = np.array([0.3, 2.9, 4.0]) 
>>> y = softmax(a) 

>>> print(y) 

[ 0.01821127 ©.24519181 0.73659691] 
>>> np.sum(y) 

1.0 


如 上 所 示 ，softmax 困 数 的 输出 是 0.0 到 1.0 之 间 的 实数 。 并 且 ，softmax 
函数 的 输出 值 的 总 和 是 1。 输 出 总 和 为 1 是 softmax 函数 的 一 个 重要 性 质 。 
因为 有 了 这 个 性 质 ， 我 们 才 可 以 把 softmax 函数 的 输出 解释 为 “概率 ”。 

比如 ， 上 面 的 例子 可 以 解释 成 y[9] 的 概率 是 0.018(1.8 兄 )，y[1] 的 概率 
Fé 0.245 (24.5%), yl2] 的 概率 是 0.737(73.7 匈 )。 从 概率 的 结果 来 看 ， 可 以 
说 “因为 第 2 个 元 素 的 概率 最 高 ， 所 以 答案 是 第 2 个 类 别 ”。 而 且 ， 还 可 以 回 
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5 “AT TA 96 BELA EB 27 28 ll, A 25 96 A ERE LPG, 1% TE 
率 是 第 0 个 类 别 ”"。 也 就 是 说 , 通过 使 用 softmax rZ, FKP TAT LA HESS IT ( 统 
计 的 ) 方 法 处 理 问 题 。 

这 里 需要 注意 的 是 ， 即 便 使 用 了 softmax 函数 ， 各 个 元 素 之 间 的 大 小 关 
系 也 不 会 改变 。 这 是 因为 指数 函数 (y = exp(z)) 是 单调 递增 函数 。 实 际 上 ， 
上 例 中 a 的 各 元 素 的 大 小 关系 和 y 的 各 元 素 的 大 小 关系 并 没有 改变 。 比 如 ，a 
的 最 大 值 是 第 2 个 元 素 ，y 的 最 大 值 也 仍 是 第 2 个 元 素 。 

一 般 而 言 , 神经 网 络 只 把 输出 值 最 大 的 神经 元 所 对 应 的 类 别 作为 识别 结 
并 且 ， 即 便 使 用 softmax 也 数 ， 输 出 值 最 大 的 神经 元 的 位 置 也 不 会 变 。 因 此 ， 
神经 网 络 在 进行 分 类 时 ， 输 出 层 的 softmax 国 数 可 以 省 略 。 在 实际 的 问题 中 ， 
由 于 指数 函数 的 运算 需要 一 定 的 计算 机 运算 量 ， 因 此 输出 层 的 softmax KA 
一 般 会 被 省 略 。 


` 




















求解 机 器 学 习 问题 的 步骤 可 以 分 为 “学 习 " 炎 和 “推理 ”两 个 阶段 。 首 
先 ， 在 学 习 阶 段 进 行 模型 的 学 习 2， 然 后 ， 在 推理 阶段 ， 用 学 到 的 
模型 对 未 知 的 数据 进行 推理 (分 类 )。 如 前 所 述 ， 推 理 阶 段 一 般 会 省 
略 输出 层 的 softmax 函数 。 在 输出 层 使 用 softmax 函数 是 因为 它 和 
神经 网 络 的 学 习 有 关系 (详细 内 容 请 参考 下 一 章 )。 





3.5.4 输出 层 的 神经 元 数量 

输出 层 的 神经 元 数量 需要 根据 竺 解决 的 问题 来 决定 。 对 于 分 类 问题 ， 输 
出 层 的 神经 元 数量 一 般 设 定 为 类 别 的 数量 。 比 如 ， 对 于 某 个 输入 图 像 ， 预 测 
是 图 中 的 数字 0 到 9 中 的 哪 一 个 的 问题 (10 类 别 分 类 问题 ) 可 以 像 图 3-23 这样 ， 
将 输出 层 的 神经 元 设 定 为 10 个 。 

如 图 3-23 所 示 ， 在 这 个 例子 中 ， 输 出 层 的 神经 元 从 上 往 下 依次 对 应 数字 
0,1,…,9。 此 外 ， 图 中 输出 层 的 神经 元 的 值 用 不 同 的 灰 度 表示 。 这 个 例子 

















QD“ 学 习 ” 也 称 为 “训练 "， 为 了 强调 算法 从 数据 中 学 习 模 型 ， 本 书 使 用 “学 习 ” 一 词 。 一 一 译 者 注 
D 这 里 的 “学 习 ” 是 指使 用 训练 数据 、 自 动 调整 参数 的 过 程 ， 具 体 请 参考 第 4 章 。 一 一 译 者 注 
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中 神经 元 刀 闫 色 最 深 ,输出 的 值 最 大 。 这 表明 这 个 神经 网 络 预 测 的 是 ys 对 应 
的 类别 ， 也 就 是 “2 。 


Yo 


输入 层 输出 层 





图 3-23 ”输出 层 的 神经 元 对 应 各 个 数字 


3.6 ”手写 数字 识别 


介绍 完 神 经 网 络 的 结构 之 后 ， 现 在 我 们 来 试 着 解决 实际 问题 。 这 里 我 们 
来 进行 手写 数字 图 像 的 分 类 。 假 设 学 习 已 经 全 部 结束 ， 我 们 使 用 学 习 到 的 参 
数 ， 先 实现 神经 网 络 的 “推理 处 理 ”。 这 个 推理 处 理 也 称 为 神经 网 络 的 前 向 
传播 (forward propagation )。 





和 求解 机 器 学 习 问 题 的 步骤 (分 成 学 习 和 推理 两 个 阶段 进行 ) 一 样 ， 
使 用 神经 网 络 解决 问题 时 ， 也 需要 首先 使 用 训练 数据 (学 习 数 据 ) 进 
行 权 重 参数 的 学 习 ; 进行 推理 时 ， 使 用 刚才 学 习 到 的 参数 ， 对 输入 
数据 进行 分 类 。 
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3.6.1 MNIST 数据 集 


这 里 使 用 的 数据 集 是 MNIST FF ARSE. MNIST ÆN J SN 
最 有 名 的 数据 集 之 一 ， 被 应 用 于 从 简单 的 实验 到 发 表 的 论文 研究 等 各 种 场合 。 
实际 上 ， 在 阅读 图 像 识 别 或 机 需 学 习 的 论文 时 ，MNIST 数 据 集 经 常 作 为 实 
验 用 的 数据 出 现 。 

MNIST 数 据 集 是 由 0 到 9 的 数字 图 像 构 成 的 (图 3-24), 训练 图 像 有 6 万 张 ， 
测试 图 像 有 1 万 张 ， 这 些 图 像 可 以 用 于 学 习 和 推理 。MNIST 数 据 集 的 一 般 
使 用 方法 是 ， 先 用 训练 图 像 进行 学 习 ， 再 用 学 习 到 的 模型 度量 能 在 多 大 程度 
上 对 测试 图 像 进行 正确 的 分 类 。 











7212} /fol4 | (ale? 
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3-24 MNIST 图像 数据 集 的 例子 





MNIST 的 图 像 数 据 是 28 像 素 x 28 像 素 的 灰 度 图 像 (1 通 道 )， 各 个 像素 
的 取 值 在 0 到 255 之 间 。 每 个 网 像 数 据 都 相应 地 标 有 “7” “2” “1 ”等 标签 。 

本 书 提供 了 便利 的 Python 脚 本 mnist.py， 该 脚本 支持 从 下 载 MNIST 数 据 
集 到 将 这 些 数据 转换 成 NumPy 数 组 等 处 理 (mnist.py 在 dataset 目录 下 )。 使 用 
mnist.py 时 ， 当 前 目录 必须 是 chgl、ch92、ch93、…、chg8 目录 中 的 一 个 。 使 
用 mnist.py 中 的 Load_mnist() 函数 ， 就 可 以 按 下 述 方式 轻松 读 入 MNIST 数 据 。 








import sys, os 
sys.path.append(os.pardir) 4 为 了 导入 父 目 录 中 的 文件 而 进行 的 设 定 
from dataset.mnist import load mnist 





# 第 一 次 调用 会 花费 几 分 钟 ……: 
(x train, t train), (x test, t test) = load mnist(flatten=True, 
normalize-False) 


# 输出 各 个 数据 的 形状 
print(x train.shape) # (60000, 784) 
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print(t train.shape) # (60000, ) 

print(x_test.shape) # (10000, 784) 

print(t test.shape) # (10000, ) 

首先 , 为 了 导入 父 目 录 中 的 文件 ,进行 相应 的 设 定 ”"。 然 后， 导入 
dataset/mnist.py 中 的 toad mnist pK ZA, Sri, [ui Hj load mist Kt, BLA 
MNIST 数 据 集 。 第 一 次 调用 Load_mnist 函数 时 ， 因 为 要 下 载 MNIST 数 据 集 ， 
所 以 需要 接 和 网络。 第 2 次 及 以 后 的 调用 只 需 读 和 人 保存 在 本 地 的 文件 (pickle 
文件 ) 即 可 ， 因 此 处 理 所 需 的 时 间 非 常 短 。 


用 来 读 入 MNIST 图 像 的 文件 在 本 书 提 供 的 源 代码 的 dataset B 
X B. 2£ B, 我 们 假定 了 这 个 MNIST 数 据 集 只 能 从 ch01、ch02、 
ch03、…、ch08 目 录 中 使 用 ， 因 此 ， 使 用 时 需要 从 父 目录 (dataset 
目录 ) 中 导入 文件 , 为 此 需要 添加 sys . path .append (os . pardir) 语句 。 





load mnist pK ZA LJ. “(WAAR ,训练 标签 )，( 测试 图像 ， 测 试 标签 ) ”的 
形式 返回 读 入 的 MNIST 数 据 。 此 外 ， 还 可 以 像 toad_mnist(normatize=True， 
flatten-True, one hot label-False) 这 样 , 设置 3 个 参数 , 第 1 个 参数 
normalize 设 置 是 否 将 输入 图 像 正 规 化 为 0.0~1.0 的 值 。 如 果 将 该 参数 设置 
为 Fatse， 则 输入 图 像 的 像素 会 保持 原来 的 0~~255。 第 2 个 参数 flatten 设 置 
是 否 展开 输入 图 像 ( 变 成 一 维 数组 )、 如 果 将 该 参数 设置 为 False， 则 输入 图 
像 为 1 x 28 x 28 的 三 维 数组 ; 在 设 置 为 True， 则 输入 图 像 会 保存 为 由 784 个 
元 素 构成 的 一 维 数组 。 第 3 个 参数 one_hot_tabelt 设 置 是 否 将 标签 保存 为 one- 
hot 表示 (one-hot representation), one-hot 表示 是 仅 正 确 解 标签 为 1， 其 余 
BE ORIRE , 就 像 [0,0,1,0,0,0,0,0,0,0] 这 样 。 当 one hot label X Falset, 
只 是 像 7、2 这 样 人 简单 保存 正确 解 标 签 ; 当 one_hot_label 为 True 时 ,标签 则 
保存 为 one-hot 表示 。 




















(OD 观察 本 书 源 代码 可 知 ， 上 述 代码 在 mnist_show.py 文 件 中 。mnist_show.py 文 件 的 当前 目录 是 ch93， 
但 包含 toad_mnist() 函数 的 mnist.py 文 件 在 dataset 目录 下 。 因 此 ，mnist_show.py 文 件 不 能 跨 目 
x ote Amnist.py X [/F, sys.path.append(os.pardir) 语句 实 际 上 是 把 父 目 录 deep-Learning - 
from-scratch 加 入 到 sys.path(Python 的 搜索 模块 的 路 征集) 中 ， 从 而 可 以 导 和 deep-tLearning- 
from-scratch 下 的 任何 目录 (包括 dataset 目录 ) 中 的 任何 文件 。 一 一 译 者 注 
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Python 有 pickle 这 个 便利 的 功能 。 这 个 功能 可 以 将 程序 运行 中 的 对 
象 保存 为 文件 。 如 果 加 载 保存 过 的 pickle 文件 ， 可 以 立刻 复原 之 前 
程序 运行 中 的 对 象 。 用 于 读 入 MNIST 数据 集 的 load mnist() 函数 内 
部 也 使 用 了 pickle 功 能 (在 第 2 次 及 以 后 读 入 时 )。 利 用 pickle 功 能 ， 
可 以 高 效 地 完成 MNIST 数 据 的 准备 工作 。 








现在 ， 我 们 试 着 显示 MNIST 图 像 ， 同 时 也 确认 一 下 数据 。 图 像 的 显示 
使 用 PIL(Python Image Library ) 模 块 。 执 行 下 述 代 码 后 ， 训 练 图 像 的 第 一 
张 束 会 显示 出 来 ， 如 图 3-25 所 示 ( 源 代码 在 ch63/mnist_show.py 中 )。 


import sys, os 
Sys.path.append(os.pardir) 

import numpy as np 

from dataset.mnist import load mnist 
from PIL import Image 


def img show(img): 
pil img = Image. fromarray(np.uint8(img) ) 
pil img.show() 


(x train, t train), (x test, t test) = load mnist(flatten=True, 
normalize-False) 

img - x train[0] 

label = t train[0] 

print(label) #5 


print(img.shape) # (784,) 
img = img.reshape(28, 28) 4 把 图 像 的 形状 变 成 原来 的 尺寸 
print(img.shape) # (28, 28) 


img show(img) 


这 里 需要 注意 的 是 ，flatten=True 时 读 和 人 的 图 像 是 以 一 列 ( 一 维 )NumPy 
数组 的 形式 保存 的 。 因 此 ， 显 示 图 像 时 ， 需 要 把 它 变 为 原来 的 28 像 素 x 28 
像素 的 形状 。 可 以 通过 reshapeO 方法 的 参数 指定 期 望 的 形状 ， 更 改 NumPy 
数组 的 形状 。 此 外 ， 还 需要 把 保存 为 NumPy 数 组 的 图 像 数据 转换 为 PIL 用 
的 数据 对 象 ， 这 个 转换 处 理由 Image.fromarray() 来 完成 。 
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3-25 显示 MNIST 图 像 


3.6.2 ”神经 网 络 的 推理 处 理 


下 面 ， 我 们 对 这 个 MNIST 数 据 集 实现 神经 网 络 的 推理 处 理 。 神 经 网 络 
的 输入 层 有 784 个 神经 元 ， 输 出 层 有 10 个 神经 元 。 输 入 层 的 784 这 个 数字 来 
源 于 图 像 大 小 的 28 x 28 = 784， 输 出 层 的 10 这 个 数字 来 源 于 10 类 别 分 类 ( 数 
字 0 到 9,， 共 10 类 别 )。 此 外 ， 这 个 神经 网 络 有 2 个 隐藏 层 ， 第 1 个 隐藏 层 有 
50 个 神经 元 , 第 2 个 隐藏 层 有 100 个 神经 元 。 这 个 50 和 100 可 以 设置 为 任何 值 。 
下 面 我 们 先 定 义 get_data() init network(), 、predict() 这 3 个 函数 (代码 在 
ch03/neuralnet mnist.py FH), 





def get data(): 
(x train, t train), (x test, t test) = N 
load mnist(normalize-True, flatten=True, one hot label-False) 
return x test, t test 


def init network(): 
with open("sample weight.pkl", 'rb') as f: 
network = pickle.load(f) 


return network 
def predict(network, x): 


Wl, W2, W3 = network['W1'], network['W2'], network[ 'W3' ] 
bl, b2, b3 = network['b1'], network['b2'], network['b3'] 
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al = np.dot(x, W1) + bl 
zl = sigmoid(al) 
a2 = np.dot(zl, W2) + b2 
z2 = sigmoid(a2) 
a3 = np.dot(z2, W3) + b3 


y = softmax(a3) 


return y 


init_network() 会 读 入 保存 在 pickle 文 件 sample_weight.pkl 中 的 学 习 到 的 
权重 参数 "。 这 个 文件 中 以 字典 变量 的 形式 保存 了 权重 和 偏 置 参数 。 剩 余 的 2 
个 函数 ， 和 前 面 介 绍 的 代码 实现 基本 相同 ， 无 需 再 解释 。 现 在 ， 我 们 用 这 3 
个 函数 来 实现 神经 网 络 的 推理 处 理 。 然 后 ,评价 它 的 识别 精度 (accuracy)， 
即 能 在 多 大 程度 上 正确 分 类 。 








x, t = get data() 
network = init network() 


accuracy cnt = 0 
for i in range(len(x)): 
y = predict(network, x[il) 
p = np.argmax(y) # 获取 概率 最 高 的 元 素 的 索引 
if p = t[i]: 
accuracy cnt += 1 





print("Accuracy:" + str(float(accuracy cnt) / len(x))) 


首先 获得 MNIST 数 据 集 ， 生 成 网 络 。 接 着 ， 用 for 语 句 逐 一 取出 保存 
在 x 中 的 图 像 数 据 ， 用 predict() 函数 进行 分 类 。predict() 函数 以 NumPy 数 
组 的 形式 输出 各 个 标签 对 应 的 概率 。 比 如 输出 [0.1, 0.3, 0.2, +++, 0.04] 的 
数组 ， 该 数组 表示 “0” 的 概率 为 0.1,，“1” 的 概率 为 0.3， 等 等 。 然 后 ， 我 们 
取出 这 个 概率 列表 中 的 最 大 值 的 索引 (第 几 个 元 系 的 概率 最 高 )， 作 为 预测 结 
果 。 可 以 用 np.argmax(x) 孔 数 取出 数组 中 的 最 大 值 的 索引 ，np.argmax(x) 将 
获取 被 赋 给 参数 x 的 数组 中 的 最 大 值 元 素 的 索引 。 最 后 ， 比 较 神 经 网 络 所 预 
测 的 答案 和 正确 解 标 签 ， 将 回答 正确 的 概率 作为 识别 精度 。 














(OD 因为 之 前 我 们 假设 学 习 已 经 完成 ， 所 以 学 习 到 的 参数 被 保存 下 来 。 假 设 保存 在 sample weight.pkl 
文件 中 ， 在 推理 阶段 ， 我 们 直接 加 载 这 些 已 经 学 习 到 的 参数 。 一 一 译 者 注 
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执行 上 面 的 代码 后 ， 会 显示 “Accuracy:0.9352”。 这 表示 有 93.52 96 WB 
据 被 正确 分 类 了 了。 目前 我 们 的 目标 是 运行 学 习 到 的 神经 网 络 ， 所 以 不 讨论 识 
别 精度 本 喘 ， 不 过 以 后 我 们 会 花 精 力 在 神经 网 络 的 结构 和 学 习 方 法 上 ， 思 考 
如 何 进一步 提高 这 个 精度 。 实 际 上 ， 我 们 打算 把 精度 提高 到 99 96 VE. 

另外 ,在 这 个 例子 中 ， 我 们 把 Load_mnist 函数 的 参数 normalize 设 置 成 了 
True。 将 normatize 设 置 成 True 后 ， 困 数 内 部 会 进行 转换 ， 将 图 像 的 各 个 像 
素 值 除 以 255， 使 得 数据 的 值 在 0.0~1.0 的 范围 内 。 像 这 样 把 数据 限定 到 某 
个 范围 内 的 处 理 称 为 正规 化 (normalization)。 此 外 ， 对 神经 网 络 的 输入 数据 
进行 某 种 既定 的 转换 称 为 预 处 理 (pre-processing)。 这 里 ， 作 为 对 输入 图 像 的 
一 种 预 处 理 ， 我 们 进行 了 正规 化 。 


` 

















预 处 理 在 神经 网 络 ( 深 度 学 习 ) 中 非常 实用 ， 其 有 效 性 已 在 提高 识别 
性 能 和 学 习 的 效率 等 众多 实验 中 得 到 证 明 。 在 刚才 的 例子 中 ， 作 为 
一 种 预 处 理 ， 我 们 将 各 个 像素 值 除 以 255， 进 行 了 简单 的 正规 化 。 
实际 上 ， 很 多 预 处 理 都 会 考虑 到 数据 的 整体 分 布 。 比 如 ， 利 用 数据 
整体 的 均值 或 标准 委 ， 移 动 数据 ， 使 数据 整体 以 0 为 中 心 分 布 ， 或 
者 进行 正规 化 ， 把 数据 的 延展 控制 在 一 定 沁 围 内 。 除 此 之 外 ， 还 有 
将 数据 整体 的 分 布 形 状 均 匀 化 的 方法 ， 即 数据 白化 (whitening ) 等 。 





3.6.3 ” 批 处 理 

以 上 就 是 处 理 MNIST 数 据 集 的 神经 网 络 的 实现 ， 现 在 我 们 来 关注 输入 
数据 和 权重 参数 的 “形状 ”。 青 看 一 下 刚才 的 代码 实现 。 

下 面 我 们 使 用 Python 解 释 器 , 输出 刚才 的 神经 网 络 的 各 层 的 权重 的 形状 。 





>>> X, _ = get data() 

>>> network = init_network() 

>>> Wl, W2, W3 = network['W1'], network['W2'], network['W3'] 
>>> 

>>> x.Shape 


(10000, 784) 
>>> x[0].shape 
(784, ) 


>>> W1.shape 
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(784, 50) 

>>> W2.shape 

(50, 100) 

>>> W3.shape 

(100, 10) 

Fe {TR ERARA — Be AZ BST i EE CR TP GE 8 — BL 
(省 略 了 偏 置 )。 用 图 表示 的 话 ， 如 图 3-26 所 示 。 可 以 发 现 ， 多 维 数组 的 对 应 
维度 的 元 素 个 数 确实 是 一 致 的 。 此 外 ， 我 们 还 可 以 确认 最 终 的 结 采 是 输出 了 
元 素 个 数 为 10 的 一 维 数组 。 





X wi 
形状 (784 784 x 50 50 x 100 100 x 10 





图 3-26 ”数组 形状 的 变化 


从 整体 的 处 理 流程 来 看 ， 图 3-26 中 ， 输 入 一 个 由 784 个 元 素 (原本 是 一 
个 28 x 28 的 二 维 数组 ) 构成 的 一 维 数组 后 , 输出 一 个 有 10 个 元 素 的 一 维 数组 。 
这 是 只 输入 一 张 图 像 数 据 时 的 处 理 流程 。 

现在 我 们 来 考虑 打包 输入 多 张 图 像 的 情形 。 比 如 ， 我 们 想 用 predict() 
函数 一 次 性 打包 处 理 100 张 图像 。 为 此 ， 可 以 把 zw 的 形状 改 为 100 x 784, 将 
100 张 图 像 打 包 作 为 输入 数据 。 用 图 表示 的 话 ， 如 图 3-27 所 示 。 











X wi W2 W3 o Y 
形状 : 100 x 784 784 x 50 50 x 100 100 x 10 100 x 10 





213-27 批 处 理 中 数组 形状 的 变化 


如 图 3-27 所 示 , 输入 数据 的 形状 为 100 x 784, 输出 数据 的 形状 为 
100 x 10。 这 表示 输入 的 100 张 图 像 的 结果 被 一 次 性 输出 了 。 比 如 ，x[9] 和 
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y[9] 中 保存 了 第 0 张 图 像 及 其 推理 结果 ，x[1] 和 y[1] 中 保存 了 第 1 张 图 像 及 
其 推理 结果 ， 等 等 。 

这 种 打包 式 的 输入 数据 称 为 批 (batch)。 批 有 “ 捆 ” 的 意思 ， 图 像 就 如 同 
纸币 一 样 扎 成 一 捆 。 


` 





批 处 理 对 计算 机 的 运算 大 有 利 处 ， 可 以 大 幅 缩 短 每 张 图 像 的 处 理 时 
间 。 那 么 为 什么 批 处 理 可 以 缩短 处 理 时 间 呢 ? 这 是 因为 大 多 数 处 理 
数值 计算 的 库 都 进行 了 能 够 高 效 处 理 大 型 数组 运算 的 最 优化 。 并 且 ， 
在 神经 网 络 的 运算 中 ， 当 数据 传送 成 为 翘 矣 时 ， 批 处 理 可 以 减轻 数 
据 总 线 的 负 筒 (严格 地 讲 ， 相 对 于 数据 读 入 ， 可 以 将 更 多 的 时 间 用 在 
计算 上 )。 也 就 是 说 ， 批 处 理 一 次 性 计算 大 型 数组 要 比分 开 逐 步 计算 
各 个 小 型 数组 速度 更 快 。 











下 面 我 们 进行 基于 批 处 理 的 代码 实现 。 这 里 用 粗 体 显示 与 之 前 的 实现 的 
不 同 之 处 。 





x, t = get data() 
network - init network() 


batch size = 100 # 批 数量 
accuracy cnt - 0 


for i in range(0, len(x), batch size): 
x batch = x[i:i*batch size] 
y batch = predict(network, x batch) 
p = np.argmax(y batch, axis=1) 
accuracy cnt += np.sum(p == t[i:itbatch_size]) 


print("Accuracy:" + str(float(accuracy cnt) / len(x))) 


我 们 来 逐个 解释 粗 体 的 代码 部 分 。 首 先是 rangeO 函数 。range() K% 
指定 为 range(start，end) ， 则 会 生成 一 个 由 start 到 end-1 之 间 的 整数 构成 的 
列表 。 若 像 range(start，end，step) 这 样 指定 3 个 整数 ， 则 生成 的 列表 中 的 
下 一 个 元 素 会 增加 step 指 定 的 值 。 我 们 来 看 一 个 例子 。 


>>> List( range(0，10) ) 
【11941522 3; 4, 5, 6, 7,.9, 8] 
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>>> list( range(0, 10, 3) ) 

[0, 3, 6, 9] 

在 range() 孙 数 生成 的 列表 的 基础 上 ,通过 x[i:itbatch_size] 从 输入 数 
据 中 抽出 批 数 据 。x[i:i+tbatch_n] 会 取出 从 第 i 个 到 第 itbatch_n 个 之 间 的 数据 。 
本 例 中 是 像 x[9:109] 、x[160:200]…… 这 样 ， 从 头 开始 以 100 为 单位 将 数据 提 
取 为 批 数据 。 

然后 ,通过 argmax() 获取 值 最 大 的 元 素 的 索引 。 不 过 这 里 需要 注意 的 是 ， 
我 们 给 定 了 参数 axis=1。 这 指定 了 在 100 x 10 的 数组 中 ， 沿 着 第 1 维 方向 (以 
第 1 维 为 轴 ) 找 到 值 最 大 的 元 素 的 索引 (第 0 维 对 应 第 1 个 维度 )”。 这 里 也 来 
看 一 个 例子 。 




















>>> x = np.array([[0.1, 0.8, 0.1], [0.3, 0.1, 0.6], 
[0.2, 0.5, 0.3], [0.8, 0.1, 0.1]]) 

>>> y = np.argmax(x, axis-1) 

>>> print(y) 

[1 2 1 0] 


最 后 ， 我 们 比较 一 下 以 批 为 单位 进行 分 类 的 结果 和 实际 的 答案 。 为 此 ， 
需要 在 NumPy 数 组 之 间 使 用 比较 运算 从 (==) 生 成 由 True/False 构 成 的 布尔 
型 数组 ， 并 计算 True 的 个 数 。 我 们 通过 下 面 的 例子 进行 确认 。 








>>> y = np.array([1, 2, 1, 0]) 
>>> t = np.array([1, 2, 0, 0]) 
>>> print(y--t) 

[True True False True] 

>>> np.sum(y==t) 

3 


至 此 ， 基 于 批 处 理 的 代码 实现 就 介绍 完了 。 使 用 批 处 理 ， 可 以 实现 高 速 


且 高 效 的 运算 。 下 一 半 介 绍 神经 网 络 的 学 习 时 ,我们 将 把 图 像 数 据 作为 打包 
的 批 数据 进行 学 习 ， 届 时 也 将 进行 和 这 里 的 批 处 理 一 样 的 代码 实现 。 














(D 和 矩阵 的 第 0 维 是 列 方向 ， 第 1 维 是 行 方向 。 一 一 译 者 注 
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3.7 小结 


本 草 介 绍 了 神经 网 络 的 前 癌 传 播 。 本 章 介 绍 的 神经 网 络 和 上 一 章 的 感知 
机 在 信号 的 按 层 传递 这 一 点 上 是 相同 的 ,但 是 ， 回 下 一 个 神经 元 发 送信 号 时 ， 
改变 信号 的 激活 函数 有 很 大 差异 。 神 经 网 络 中 使 用 的 是 平 请 变化 的 sigmoid 
消 数 ， 而 感知 机 中 使 用 的 是 信号 急剧 变化 的 阶 路 函数。 这 个 差异 对 于 神经 网 
络 的 学 习 非 常 重要， 我 们 将 在 下 一 半 介 绍 。 





























本 章 所 学 的 内 容 
神经 网 络 中 的 激活 函数 使 用 平滑 变化 的 Sigmoid 函数 或 ReLU 函数 。 
通过 巧妙 地 使 用 NumPy 多 维 数组 ， 可 以 高 效 地 实现 神经 网 络 。 
机 器 学 习 的 问题 大 体 上 可 以 分 为 回归 问题 和 分 类 问题 。 


关于 输出 层 的 激活 函数 ， 回 归 问 题 中 一 般 用 恒 等 函 数 ， 分 类 问题 中 
一 般 用 softmax 函 数 。 
分 类 问题 中 ， 输 出 层 的 神经 元 的 数量 设置 为 要 分 类 的 类 别 数 。 


输入 数据 的 集合 称 为 批 。 通 过 以 批 为 单位 进行 推理 处 理 ， 能够 实 


wy 


高 速 的 运算 。 
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4 
神经 网 络 的 学 习 





本 章 的 主题 是 神经 网 络 的 学 习 。 这 里 所 说 的 “学 习 ” 是 指 从 训练 数据 中 
日 动 获取 最 优 权重 参数 的 过 程 。 本 章 中 ， 为 了 使 神经 网 络 能 进行 学 习 ， 将 导 
入 损失 函数 这 一 指标 。 而 学 习 的 目的 就 是 以 该 损失 冰 数 为 基准 ， 找 出 能 使 它 
的 值 达到 最 小 的 权重 参数 。 为 了 找 出 尽 可 能 小 的 损失 函数 的 值 ， 本 章 我 们 将 
介绍 利用 了 函数 冬 率 的 梯度 法 。 
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神经 网 络 的 特征 就 是 可 以 从 数据 中 和 学习。 所谓“ 从 数据 中 学 习 "， 有 是 指 
可 以 由 数据 自动 决定 权重 参数 的 值 。 这 是 非常 了 不 起 的 事情 ! 因为 如 有 果 所 有 
的 参数 都 需要 人 工 决 定 的 话 ， 工 作 量 就 太 大 了 。 在 第 2 章 介 绍 的 感知 机 的 例 
子 中 ,我们 对 照 着 真 值 表 ， 人 工 设 定 了 参数 的 值 ,但 是 那 时 的 参数 只 有 3 个 。 
而 在 实际 的 神经 网 络 中 ， 参 数 的 数量 成 后 上 万 ， 在 层 数 更 深 的 帝 度 学 习 中 ， 
参数 的 数量 甚至 可 以 上 亿 ， 想 要 人 工 决 定 这 些 参数 的 值 是 不 可 能 的 。 本 章 将 
介绍 神经 网 络 的 学 习 ， 即 利用 数据 决定 参数 值 的 方法 ， 并 用 Python 实现 对 
MNIST 手 与 数字 数据 集 的 学 习 。 


` 


























对 于 线性 可 分 问题 ， 第 2 章 的 感知 机 是 可 以 利用 数据 自动 学 习 的 。 
根据 “感知 机 收敛 定理 *"， 通 过 有 限 次 数 的 学 习 ， 线 性 可 分 问题 是 可 
解 的 。 但 是 ， 非 线性 可 分 问题 则 无 法 通过 (自动) 学习 来 解决 。 
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4.1.1 数据 驱动 


数据 是 机 融 学 习 的 命根 子 。 从 数据 中 寻找 答案 、 从 数据 中 发 现 模式 、 根 
据 数 据 讲 故事 …… 这 些 机 各 学 习 所 做 的 事情 ， 如 果 没 有 数据 的 话 ， 就 无 从 谈 
起 。 因 此 ， 数 据 是 机 带 学 习 的 核心 。 这 种 数据 驱动 的 方法 ， 也 可 以 说 脱离 了 
过 往 以 人 为 中 心 的 方法 。 

通常 要 解决 菏 个 问题 ， 特 别 是 需要 发 现 某 种 模式 时 ， 人 们 一 般 会 综合 考 
虑 各 种 因素 后 再 给 出 回答 。“ 这 个 问题 好 像 有 这 样 的 规律 性 ?”“ 不 对 ， 可 能 
原因 在 别 的 地 方 。 一 一 类 似 这 样 ， 人 们 以 目 己 的 经 验 和 直觉 为 线索 ,通过 反 
复试 验 推进 工作 。 而 机 此 学 习 的 方法 则 极力 避免 人 为 介入 ， 笠 试 从 收集 到 的 
数据 中 发 现 答案 (模式 )。 神 经 网 络 或 深度 学 习 则 比 以 往 的 机 可 学 习 方 法 更 能 
RANTA- 

现在 我 们 来 思考 一 个 具体 的 问题 ， 比 如 如 何 实现 数字 “5” 的 识别 。 数 字 
5 是 图 4-1 所 示 的 手写 图 像 ， 我 们 的 目标 是 实现 能 区 别 是 否 是 5 的 程序 。 这 个 
问题 看 起 来 很 简单 ， 大 家 能 想到 什么 样 的 算法 呢 ? 























GEBEBISEBHEBSBBHBBSESEBHEHBEN 
BHERBEBEERBBBSHEBISBERBEF 


EBEBBREBBJIISSSIBESBEBIi EE 
BIBERBEBEEIREBBESBSBEBHBEH 


图 4-1 手写 数字 5 的 例子 : 写法 因 人 而 异 , 五 花 八 门 





如 果 计 我 们 自己 来 设计 一 个 能 将 5 正确 分 类 的 程序 ， 就 会 意外 地 发 现 这 
是 一 个 很 难 的 问题 。 人 可 以 简单 地 识别 出 5,， 但 却 很 难 明确 说 出 是 基于 何 种 
规律 而 识别 出 了 了 5。 此外, 从 图 41 中 也 可 以 看 到 , 每 个 人 都 有 不 同 的 写字 习惯 ， 
要 发 现 其 中 的 规律 是 一 件 非 常 难 的 工作 。 

因此 ， 与 其 绞 尽 脑 计 ， 从 去 开始 想 出 一 个 可 以 识别 5 的 算法 ， 不 如 考虑 
通过 有 效 利 用 数据 来 解决 这 个 问题 。 一 种 方案 是 ， 先 从 图 像 中 提取 特征 量 ， 
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再 用 机 器 学 习 技 术 学 习 这 些 特征 量 的 模式 。 这 里 所 说 的 “特征 量 ” 是 指 可 以 
从 输入 数据 (输入 图 像 ) 中 准确 地 提取 本 质数 据 ( 重 要 的 数据 ) 的 转换 器 。 图 
像 的 特征 量 通常 表示 为 向 量 的 形式 。 在 计算 机 视觉 领域 ， 常 用 的 特征 量 包括 
SIFET、SURF 和 HOG 等 。 使 用 这 些 特征 量 将 图 像 数 据 转换 为 向 量 ， 然 后 对 
转换 后 的 向 量 使 用 机 器 学 习 中 的 SVM、KNN 等 分 类 器 进行 学 习 。 

机 右 学 习 的 方法 中 ， 由 机 器 从 收集 到 的 数据 中 找 出 规律 性 。 与 从 零 开 始 
想 出 算法 相 比 ， 这 种 方法 可 以 更 高 效 地 解决 问题 ， 也 能 减轻 人 的 负担 。 但 是 
需要 注意 的 是 ， 将 图 像 转 换 为 向 量 时 使 用 的 特征 量 仍 是 由 人 设计 的 。 对 于 不 
同 的 问题 ， 必 须 使 用 合适 的 特征 量 ( 必 须 设 计 专门 的 特征 量 )， 才 能 得 到 好 的 
结果 。 比 如 ， 为 了 区 分 狗 的 脸 部 ， 人 们 需要 考虑 与 用 于 识别 5 的 特征 量 不 同 
的 其 他 特征 量 。 也 就 是 说 ， 即 使 使 用 特征 量 和 机 器 学 习 的 方法 ， 也 需要 针对 
不 同 的 问题 人 工 考虑 合适 的 特征 量 。 

到 这 里 ， 我 们 介绍 了 两 种 针对 机 器 学 习 任 务 的 方法 。 将 这 两 种 方法 用 图 
来 表示 ， 如 图 42 所 示 。 图 中 还 展示 了 神经 网 络 (深度 学 习 ) 的 方法 ， 可 以 看 
出 该 方法 不 存在 人 为 介入 。 

如 图 4-2 所 示 ， 神 经 网 络 直 接 学 习 图 像 本 身 。 在 第 2 个 方法 ， 即 利用 特 
征 量 和 机 器 学 习 的 方法 中 ， 特 征 量 仍 是 由 人 工 设 计 的 ， 而 在 神经 网 络 中 ， 连 
图 像 中 包含 的 重要 特征 量 也 都 是 由 机 器 来 学 习 的 。 









































人 想到 的 算法 


人 想到 的 特征 量 Plane -J 


(SIFT, HOG&& ) (SVM, KNN&& ) 


神经 网 络 
(深度 学 习 ) 





4-2 ”从 人 工 设计 规则 转变 为 由 机 器 从 数据 中 学 习 : 没有 人 为 介入 的 方块 用 灰色 表示 
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` 


神经 网 络 的 优点 是 对 所 有 的 问题 都 可 以 用 同样 的 流程 来 解决 。 比 如 ， 不 
管 要 求解 的 问题 是 识别 5， 还 是 识别 狗 ， 抑 或 是 识别 人 脸 ， 神 经 网 络 部 是 通 
过 不 断 地 学 习 所 提供 的 数据 ， 尝 试 发 现 待 求解 的 问题 的 模式 。 也 就 是 说 ， 与 
竺 处 理 的 问题 无 关 ， 神 经 网 络 可 以 将 数据 直接 作为 原始 数据 ， 进 行 “ 端 对 病 ” 
的 学 习 。 


深度 学 习 有 时 也 称 为 站 到 站 机 器 学 习 (end-to-end machine 
learning)。 这 里 所 说 的 端 到 端 是 指 从 一 端 到 另 一 端的 意思 ， 也 就 是 
从 原始 数据 (输入 ) 中 获得 目标 结果 (输出 ) 的 意思 。 














4.1.2 ”训练 数据 和 测试 数据 


本 章 主 要 介绍 神经 网 络 的 学 习 ， 不 过 在 这 之 前 ， 我 们 先 来 介绍 一 下 机 融 
学 习 中 有 关 数 据 处 理 的 一 些 注意 事项 。 

机 种 和 尝 习 中 ， 一 般 将 数据 分 为 训练 数据 和 测试 数据 两 部 分 来 进行 学习 和 
实验 等 。 首 匈 ， 使 用 训练 数据 进行 学 习 ， 寻 找 最 优 的 参数 ; 然后 ， 使 用 测试 
数据 评价 训练 得 到 的 模型 的 实际 能 力 。 为 什么 需要 将 数据 分 为 训练 数据 和 测 
试 数据 呢 ? 因为 我 们 追求 的 是 模型 的 泛 化 能 力 。 为 了 正确 评价 模型 的 泛 化 能 
力 ， 就 必须 划分 训练 数据 和 测试 数据 。 另 外 , 训练 数据 也 可 以 称 为 监督 数据 。 

沁 化 能 力 是 指 处 理 未 被 观察 过 的 数据 (不 包含 在 训练 数据 中 的 数据 ) 的 
能 力 。 获 得 泛 化 能 力 是 机 带 学 习 的 最 终 目 标 。 比 如 ， 在 识别 手 与 数字 的 问题 
中 ， 泛 化 能 力 可 能 会 被 用 在 上 自动 读 取 明 信 廊 的 邮政 编码 的 系统 上 。 此 时 ,， 手 
写 数 字 识 别 就 必须 具备 较 高 的 识别 “ 某 个 人 ” 写 的 字 的 能 力 。 注 意 这 里 不 是 “ 特 
定 的 某 个 人 写 的 特定 的 文字 ”"， 而 是 “任意 一 个 人 写 的 任意 文字 ”"。 如 有 果 系 统 
只 能 正确 识别 已 有 的 训练 数据 ， 那 有 可 能 是 只 学 习 到 了 训练 数据 中 的 个 人 的 






































因此 ， 仅 仅 用 一 个 数据 集 去 学 习 和 评价 参数 ， 是 无 法 进行 正确 评价 的 。 
这 样 会 导致 可 以 顺利 地 处 理 某 个 数据 集 ， 但 无 法 处 理 其 他 数据 集 的 情况 。 顺 
便 说 一 下 ， 只 对 菏 个 数据 集 过 度 拟 合 的 状态 称 为 过 拟 合 (over fitting), 避免 
过 拟 合 也 是 机 带 学 习 的 一 个 重要 访 题 。 
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42. ”损失 函数 





如 果 有 人 间 你 现在 有 多 荚 福 ,你 会 如 何 回答 呢 ? 一 般 的 人 可 能 会 给 出 诸 
如 “还 可 以 吧 ” 或 者 “不 是 那么 侍 福 ”等 党 统 的 回答 。 如 果 有 人 回答 “我 现在 
的 第 福 指 数 是 10.23” 的话 ， 可 能 会 把 人 吓 一 跳 吧 。 因 为 他 用 一 个 数值 指标 来 
评判 目 己 的 华 福 程度 。 

这 里 的 竺 福 指 数 只 是 打 个 比方 ， 实 际 上 神经 网 络 的 学习 也 在 做 同样 的 事 
情 。 神 经 网 络 的 学 习 通 过 茶 个 指标 表示 现在 的 状态 。 然 后 ， 以 这 个 指标 为 基 
准 ， 寻 找 最 优 权重 参数 。 和 刚刚 那 位 以 养 福 指数 为 指引 寻找 “最 优 人 生 ” 的 
人 一 样 ， 神 经 网 络 以 某 个 指标 为 线索 寻找 最 优 权 重 参数 。 神 经 网 络 的 学 习 中 
所 用 的 指标 称 为 损失 函数 (loss function)。 这 个 损失 函数 可 以 使 用 任意 函数 ， 
(EIA te Fe PAS MTR 25 SE o 




















PS | 损失 函数 是 表示 神经 网 络 性 能 的 “恶劣 程度 " 的 指标 ， 即 当前 的 

wm | 神经 网 络 对 监督 数据 在 多 大 程度 上 不 拟 合 ， 在 多 大 程度 上 不 一 致 。 

人 ”以 “性 能 的 恶劣 程度 " 为 指标 可 能 会 使 人 感到 不 太 自 然 ， 但 是 如 
果 给 损失 函数 乘 上 一 个 负 值 ， 就 可 以 解释 为 “在 多 大 程度 上 不 坏 ”， 
BD “MAES Sor”. XB, “使 性 能 的 恶劣 程度 达到 最 小 " 和 “使 性 
能 的 优良 程度 达到 最 大 ”是 等 价 的 ,不管 是 用 “恶劣 程度 " 还 是 “ 优 
良 程度 "， 做 的 事情 本 质 上 都 是 一 样 的 。 


4.2.1 JRA 


可 以 用 作 损 失 晒 数 的 图 数 有 很 多 ， 其 中 最 有 名 的 是 均 方 误差 (mean squared 
error )。 均 方 误差 如 下 式 所 示 。 











B= 3 Dot) (4.1) 


XE, yp, EAE ZS IARE HA, tL REANIM BUDE, k REN AER 
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比如 , 在 3.6 市 手写 数学 识别 的 例子 中 ,yi、 妇 是 由 如 下 10 个 元 素 构成 的 数据 。 


>>> y 
>>> t 


[0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] 
[0, 0, 1, 0, 0, 0, ©, ©, 0, 0] 








数组 元 素 的 索引 从 第 一 个 开始 依次 对 应 数字 “0” UT "27e 这 里 ， 神 
经 网 络 的 输出 y 是 softmax 函数 的 输出 。 由 于 softmax 函数 的 输出 可 以 理解 为 
概率 ， 因 此 上 例 表示 “0” 的 概率 是 0.1,“1” 的 概率 是 0.05,“2” 的 概率 是 0.6 
等 。t 是 监督 数据 , 将 正确 解 标 签 设 为 1， 其 他 均 设 为 0。 这 里 , 标签 “2” 为 1， 
表示 正确 解 是 “2”。 将 正确 解 标 签 表示 为 1， 其 他 标签 表示 为 0 的 表示 方法 称 
为 one-hot 表示 。 

如 式 (4.1) 所 示 ， 均 方 误差 会 计算 神经 网 络 的 输出 和 正确 解 监 督 数据 的 
各 个 元 素 之 差 的 平方 , 再 求 总 和 。 现 在 , 我 们 用 Python 来 实现 这 个 均 方 误差 ， 
实现 方式 如 下 所 示 。 














def mean squared error(y, t): 
return 0.5 * np.sum((y-t)**2) 


这 里 ,参数 y 和 t 是 NumPy 数 组 。 代 码 实现 完全 遵照 式 (4.1)， 因 此 不 
再 具体 说 明 。 现 在 ,我 们 使 用 这 个 函数 ， 来 实际 地 计算 一 下 。 


>>> # 设 “2” 为 正确 解 
>>> t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0] 


>>> # 例 1:“2"” 的 概率 最 高 的 情况 (0 .6 ) 

>>> y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] 
>>> mean squared error(np.array(y), np.array(t) ) 
0.097500000000000031 

>>> 

>>> # 例 2:“7” 的 概率 最 高 的 情况 (0.6) 

>>> y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0] 
>>> mean squared error(np.array(y), np.array(t) ) 
0.59750000000000003 


这 里 举 了 两 个 例子 。 第 一 个 例子 中 ， 正 确 解 是 “2”"， 神 经 网 络 的 输出 的 最 大 
值 是 “2”; 第 二 个 例子 中 ， 正 确 解 是 “2”"， 神 经 网 络 的 输出 的 最 大 值 是 %7”"。 如 
实验 结 末 所 示 ， 我 们 发 现 第 一 个 例子 的 损失 函数 的 值 更 小 ， 和 监督 数据 之 则 的 
误差 较 小 。 也 就 是 说 , 均 方 误差 显示 第 一 个 例子 的 输出 结果 与 监督 数据 更 加 吻合 。 
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4.0.0 ZNR 
ER T IJJRRZEZEÀR. BEM MIRE (cross entropy error) 也 经 党 被 用 作 损 
APR S AC SUA TR ZEE P XXI c 


E = -X tr log Yk (4.2) 
k 


这 里 ，log 表 示 以 e 为 底数 的 目 然 对 数 (log 。)。 汉 是 神经 网 络 的 输出 ，ti 是 
正确 解 标 签 。 并 且 , tt 中 只 有 正确 解 标 签 的 索引 为 1, 其 他 均 为 0(one-hot 表 示 )。 
因此 ， 式 (4.2) 实 际 上 只 计算 对 应 正确 解 标 签 的 输出 的 目 然 对 数 。 比 如 ， 假 设 
正确 解 标 签 的 索引 是 “2”,， 与 之 对 应 的 神经 网 络 的 输出 是 0.6， 则 交 又 烂 误差 
是 一 log 0.6 = 0.51; 在 “2” 对 应 的 输出 是 0.1, WBE TRAE —log 0.1 = 2.30. 
也 就 是 说 ， 交 叉 业 误 差 的 值 是 由 正确 解 标 签 所 对 应 的 输出 结果 决定 的 。 

目 然 对 数 的 图 像 如 图 4-3 所 示 。 








图 4-3 目 然 对 数 y = log x HER 
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如 图 4-3 所 示 ，Zz 等 于 1 时 , y 为 0; baa Osi, yaa). A, 
正确 解 标签 对 应 的 输出 越 大 ， 式 (4.2) 的 值 越 接近 0; 当 输 出 为 1 时 ， 交 叉 燃 
误差 为 0。 此 外 ， 如 果 正 确 解 标签 对 应 的 输出 较 小 ， 则 式 (4.2) 的 值 较 大 。 

下 面 ， 我 们 来 用 代码 实现 交 义 信 误差 。 








def cross entropy error(y, t): 
delta = le-7 
return -np.sum(t * np.log(y + delta) ) 
XE, BM y Alte NumPy WA. eA TEETH np. logit, JH b f— 
个 微小 值 delta。 这 是 因为 ， 当 出 现 np.tog(9) WY, np.log(0) 会 变 为 负 无 限 大 
的 -inf， 这 样 一 来 就 会 导致 后 续 计算 无 法 进行 。 作 为 保护 性 对 策 ， 添 加 一 个 
微小 值 可 以 防止 负 无 限 大 的 发 生 。 下 面 , 我 们 使 用 cross_entropy_error(y，t) 
进行 一 些 人 简单 的 计算 。 








>>> t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0] 

>>> y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] 
>>> cross entropy error(np.array(y), np.array(t) ) 
0.51082545709933802 

>>> 

>>> y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0] 
>>> cross entropy_error(np.array(y), np.array(t) ) 

2 . 3025840929945458 


BEBE IB. ERER Mm A 0.6, HINT Sz SCR EKA 


为 0.51。 第 二 个 例子 中 ， 正 确 解 标签 对 应 的 输出 为 0.1 的 低 值 ， 此 时 的 交叉 
烂 误差 大 约 为 2.3。 由 此 可 以 看 出 , 这 些 结果 与 我 们 前 面 讨论 的 内 容 是 一 致 的 。 





4.0.3 mini-batch 学 习 


机 带 学 习 使 用 训练 数据 进行 学 习 。 使 用 训练 数据 进行 学 习 ， 严 格 来 说 ， 
就 是 针对 训练 数据 计算 损失 函数 的 值 ， 找 出 使 该 值 尺 可 能 小 的 参数 。 因 此 ， 
计算 损失 男 数 时 必须 将 所 有 的 训练 数据 作为 对 象 。 也 就 是 说 ， 如 采 训 练 数 据 
有 100 个 的 话 ， 我 们 就 要 把 这 100 个 损失 函数 的 总 和 作为 学 习 的 指标 。 

前 面 介 绍 的 损失 函数 的 例子 中 考虑 的 都 是 针对 单个 数据 的 损失 函数 。 如 
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末 要 求 所 有 训练 数据 的 损失 函数 的 总 和 ， 以 交叉 精 误 差 为 例 ， 可 以 写成 下 面 
的 式 (4.3)。 


RB XX log Ynk (4.3) 


这 里 BUENAS, Luo SB n BE AB EUR IRL EE Cus d Tz 
经 网 络 的 输出 ， 如 是 监督 数据 )。 式 子 虽 然 看 起 来 有 一 些 复杂 ， 其 实 只 是 把 
求 单个 数据 的 损失 函数 的 式 (4.2) 扩 大 到 了 N 份 数据 ， 不 过 最 后 还 要 除 以 N 
进行 正规 化 。 通 过 除 以 N， 可 以 求 单 个 数据 的 “平均 损失 函数 "。 通 过 这 样 的 
平均 化 ， 可 以 获得 和 训练 数据 的 数量 无 关 的 统一 指标 。 比 如 ， 即 便 训练 数据 
有 1000 个 或 10000 个 ， 也 可 以 求 得 单个 数据 的 平均 损失 也 数 。 

另外 ，MNIST 数 据 集 的 训练 数据 有 60000 个 ， 如 果 以 全 部 数据 为 对 象 
求 损失 顶 数 的 和 ， 则 计算 过 程 需要 花费 较 长 的 时 间 。 再 者 ， 如 果 遇 到 大 数据 ， 
数据 量 会 有 儿 百 万 、 几 千 万 之 多 ， 这 种 情况 下 以 全 部 数据 为 对 象 计算 损失 所 
数 是 不 现实 的 。 因 此 ,我 们 从 全 部 数据 中 选 出 一 部 分 ， 作 为 全 部 数据 的 “ 近 
似 ”。 神 经 网 络 的 学 习 也 是 从 训练 数据 中 选 出 一 批 数据 ( 称 为 mini-batch, 小 
批量 )， 然 后 对 每 个 mini-batch 进行 学 习 。 比 如， 从 60000 个 训练 数据 中 随机 
选择 100 笔 , 再 用 这 100 笔 数据 进行 学 习 。 这 种 学 习 方式 称 为 mini-batch 学 习 。 

下 面 我 们 来 编写 从 训练 数据 中 随机 选择 指定 个 数 的 数据 的 代码 ， 以 进行 
mini-batch 学 习 。 在 这 之 前 ， 先 来 看 一 下 用 于 谈 入 MNIST 数 据 集 的 代码 。 


























import sys, os 
Sys.path.append(os.pardir) 

import numpy as np 

from dataset.mnist import load mnist 


(x train, t train), (x test, t test) = \ 
load mnist(normalize-True, one hot label-True) 


(60000, 784) 
(60000, 10) 


print(x train.shape) 


# 
print(t train.shape) # 


第 3 章 介 绍 过 ，load_mnist KAGEM T EA MNIST SHE AY PRA, XS 
函数 在 本 书 提供 的 脚本 dataset/mnist.py 中， 它 会 读 入 训练 数据 和 测试 数据 。 
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读 入 数据 时 ， 通 过 设 定 参数 one_hot_LabeL=True， 可 以 得 到 one-hot 表示 ( 即 
仅 正 确 解 标签 为 1， 其 余 为 0 的 数据 结构 )。 

谈 入 上 面 的 MNIST 数 据 后 ,训练 数据 有 60000 个 ， 输入 数据 是 784 维 
(28 x 28) 的 图 像 数据 ， 监 督 数据 是 10 维 的 数据 。 因 此 ， 上 面 的 x_train、t_ 
train 的 形状 分 别 是 (60000, 784) 和 (60000, 10), 

那么 ， 如 何 从 这 个 训练 数据 中 随机 抽取 10 笔 数据 呢 ? 我 们 可 以 使 用 
NumPy 的 np.random.choice()， 写 成 如 下 形式 。 

train size = x train.shape[0] 

batch size - 10 

batch mask = np.random.choice(train size, batch size) 

x batch = x train[batch mask] 

t batch = t train[batch mask] 

fii FF] np. random. choice() 可 以 从 指定 的 数字 中 随机 选择 想 要 的 数字 。 比 如 ， 
np.random.choice(60000, 10) 会 从 0 到 59999 之 间 随 机 选择 10 个 数字 。 如 下 


面 的 实际 代码 所 示 ， 我 们 可 以 得 到 一 个 包含 被 选 数据 的 索引 的 数组 。 





>>> np.random.choice(60000, 10) 
array([ 8013, 14666, 58210, 23832, 52091, 10153, 8107, 19410, 27260, 
21411] ) 





之 后 ， 我 们 只 需 指 定 这 些 随机 选 出 的 索引 ， 取 出 mini-batch， 然 后 使 用 
这 个 mini-batch HAMAR PR ACRI n] 


计算 电视 收视 率 时 ， 并 不 会 统计 所 有 家 庭 的 电视 机 ， 而 是 仅 以 那些 
被 选中 的 家 庭 为 统计 对 象 。 比 如 ， 通 过 从 关东 地 区 随机 选择 1000 个 
家 庭 计算 收视 率 ， 可 以 近似 地 求 得 关东 地 区 整体 的 收视 率 。 这 1000 
个 家 庭 的 收视 率 ， 虽 然 严 格 上 不 等 于 整体 的 收视 率 ， 但 可 以 作为 整 
体 的 一 个 近似 值 。 和 收视 率 一 样 ，mini-bpatch 的 损失 函数 也 是 利用 
一 部 分 样本 数据 来 近似 地 计算 整体 。 也 就 是 说 ， 用 随机 选择 的 小 批 
量 数据 ( mini-batch ) 作为 全 体 训 练 数据 的 近似 值 。 
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4.44 mini-batch hac S X8 ZEB SCHO 

如 何 实现 对 应 mini-batch Hz SCA 2: 957. 只 要 改 展 一 下 之 前 实现 的 对 
应 单个 数据 的 交 义 粒 误 差 就 可 以 了 。 这 里 ， 我 们 来 实现 一 个 可 以 同时 处 理 单 
个 数据 和 批量 数据 (数据 作为 batch 集 中 输入 ) 两 种 情况 的 函数 。 





def cross entropy error(y, t): 
if y.ndim == 
t = t.reshape(1, t.size) 
y = y.reshape(1, y.size) 


batch size = y.shape[0] 
return -np.sum(t * np.log(y + le-7)) / batch size 
这 里 ，y 是 神经 网 络 的 输出 , t 是 监督 数据 。y 的 维度 为 1 时 ， 即 求 单个 
数据 的 交叉 燃 误 差 时 ,需要 改变 数据 的 形状 。 并 且 ， 当 输入 为 mini-batch 时 ， 
要 用 batch 的 个 数 进行 正规 化 ， 计 算 单 个 数据 的 平均 交叉 燃 误 差 。 
此 外 ， 当 监督 数据 是 标签 形式 ( 非 one-hot 表示 ， 而 是 像 “%2”“7” 这 样 的 
标签 ) 时 ， 交 又 入 误 差 可 通过 如 下 代码 实现 。 
def cross entropy error(y, t): 
if y.ndim == 1: 


t = t.reshape(1, t.size) 
y = y.reshape(1, y.size) 


batch size = y.shape[0] 
return -np.sum(np.log(y[np.arange(batch size), t] + le-7)) / batch size 





实现 的 要 点 是 ， 由 于 one-hot 表示 中 t 为 0 的 元 素 的 交叉 燃 误 差 也 为 0， 
此 针对 这 些 元 素 的 计算 可 以 忽略 。 换 言 之 ， 如 采 可 以 获得 神经 网 络 在 正确 
解 标 签 处 的 输出 ， 就 可 以 计算 交叉 箭 误差 。 因 此 , t 为 one-hot 表 示 时 通过 
t * np.log(y) 计算 的 地 方 , 在 t 为 标签 形式 时 , 可 用 np.log( y[np.arange 
(batch size), t] ) 实现 相同 的 处 理 ( 为 了 便于 观察 ， 这 里 省 略 了 微小 值 1e-7)。 

作为 参考 ， 简 单 介 绍 一 下 np.tLog( y[np.arange(batch_size), t] )。np.arange 
(batch size) 会 生成 一 个 从 0 到 batch size-1 的 数组 。 比 如 当 batch size 为 5 
时 ，np.arange(batch_size) 会 生成 一 个 NumPy 数组 [0，1，2，3，4]。 因 为 
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t 中 标签 是 以 [2，7，6，9,，4] 的 形式 存储 的 ， 所 以 y[np.arange(batch_size)， 
t] 能 抽出 各 个 数据 的 正确 解 标签 对 应 的 神经 网 络 的 输出 (在 这 个 例子 中 ， 
y[np.arange(batch size), t] 会 生成 NumPy 数 组 [y[0,2], y[1,7], yI2,01, 


y[3,9], y[4,4]1]). 


4.0.5 “为何 要 设 定 损失 函数 


上 面 我 们 讨论 了 损失 函数 ， 可 能 有 人 要 问 : “为 什么 要 导入 损失 函数 呢 ?” 
以 数字 识别 任务 为 例 ， 我 们 想 获得 的 是 能 提高 识别 精度 的 参数 ， 特 意 再 导入 
一 个 损失 水 数 不 是 有 些 重复 劳动 吗 ?” 也 就 是 说 ， 有 既然 我 们 的 目标 是 获得 使 识 
别 精度 尽 可 能 高 的 神经 网 络 ， 那 不 是 应 该 把 识别 精度 作为 指标 吗 ? 

对 于 这 一 疑问 ， 我 们 可 以 根据 “导数 ”在 神经 网 络 学 习 中 的 作用 来 回答 。 
下 一 节 中 会 详细 说 到 ,在 神经 网 络 的 学 习 中 ,寻找 最 优 参数 (权重 和 侦 置 ) 时 ， 
要 寻找 使 损失 函数 的 值 尽 可 能 小 的 参数 。 为 了 找到 使 损失 孙 数 的 值 尽 可 能 小 
的 地 方 ， 需要 计算 参数 的 导数 (确切 地 讲 是 梯度 )， 然 后 以 这 个 导数 为 指引 ， 
逐步 更 新 参数 的 值 。 

假设 有 一 个 神经 网 络 ， 现 在 我 们 来 天 注 这 个 神经 网 络 中 的 某 一 个 权重 参 
数 。 此 时 ， 对 该 权重 参数 的 损失 函数 求 导 ， 表 示 的 是 “如 果 稍 微 改变 这 个 权 
重 参 数 的 值 ， 损 失 函 数 的 值 会 如 何 变 化 ”"。 如 果 导 数 的 值 为 负 ， 通 过 使 该 权 
重 参数 向 正方 同 改变 ， 可 以 减 小 损失 函数 的 值 ; 反 过 来 ， 如 末 导 数 的 值 为 正 ， 
则 通过 使 该 权重 参数 向 负 方 条 改变， 可 以 减 小 损失 函数 的 值 。 不 过 ， 当 导数 
的 值 为 0 时 ， 无 论 权 重 参 数 疝 哪个 方向 变化 ， 损 失 函 数 的 值 剖 不 会 改变 ， 此 
时 该 权重 参数 的 更 新 会 停 在 此 处 。 

之 所 以 不 能 用 识别 精度 作为 指标 ， 是 因为 这 样 一 来 绝 大 多 数 地 方 的 寻 效 
都 会 变 为 0, 导致 参数 无 法 更 新 。 话 说 得 有 点 多 了 , 我 们 来 总 结 一 下 上 面 的 内 容 。 









































在 进行 神经 网 络 
度 `~ 


的 学 习 时 ， 不 能 将 识别 精度 作为 指标 。 因 为 如 果 以 
识别 精度 为 指标 ， 则 参 才 


数 的 手数 在 绝 大 多 数 地 方 都 会 变 为 0。 


为 什么 用 识别 精度 作为 指标 时 ， 人 参数 的 导数 在 绝 大 多 数 地 方 都 会 变 成 0 
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呢 ? 为 了 回答 这 个 问题 ， 我 们 来 思考 另 一 个 具体 例子 。 假 设 某 个 神经 网 络 正 
确 识别 出 了 100 笔 训练 数据 中 的 32 笔 ， 此 时 识别 精度 为 32 %。 如 果 以 识别 精 
度 为 指标 ， 即 使 稍微 改变 权重 参数 的 值 ， 识 别 精 度 也 仍 将 保持 在 32 %, A 
出 现 变化 。 也 就 是 说 ， 仪 仅 微 调 参 数 ， 是 无 法 改善 识别 精度 的 。 即 便 识别 精 
度 有 所 改善 ， 它 的 值 也 不 会 像 32.0123 :这样 连 续 变 化 ， 而 是 变 为 33 96, 
34% 这 样 的 不 连续 的 、 离 散 的 值 。 而 如 果 把 损失 函数 作为 指标 ， 则 当前 损 
失 函 数 的 值 可 以 表示 为 0.92543 .… 这 样 的 值 。 并 有 旦 ， 如 采 稍 微 改变 一 下 参数 
的 值 ， 对 应 的 损失 函数 也 会 像 0.93432 .… 这 样 发 生 连 续 性 的 变化 。 

识别 精度 对 微小 的 参数 变化 基本 上 没有 什么 反应 ， 即 便 有 反应 ， 它 的 值 
也 是 不 连续 地 、 突 然 地 变化 。 作 为 激活 函数 的 阶 跃 函 数 也 有 同样 的 情况 。 出 
于 相同 的 原因 , BME ABNER PR IEA Ba PRIA, 神经 网 络 的 学 习 将 无 法 进行 。 
如 图 4-4 所 示 ， 阶 跃 孔 数 的 导数 在 绝 大 多 数 地 方 (除了 0 以 外 的 地 方 ) 均 为 0。 
也 就 是 说 ， 如 果 使 用 了 阶 跃 函 数 ， 那 么 即便 将 损失 函数 作为 指标 ， 参 数 的 微 
小 变化 也 会 被 阶 跃 函数 抹杀 ， 导 致 损失 函数 的 值 不 会 产生 任何 变化 。 

阶 跃 函数 就 像 PAA AE, 只 在 某 个 瞬间 产生 变化 。 而 sigmoid PRX, 
如 图 4-4 所 示 , 不 仅 函 数 的 输出 ( 竖 轴 的 值 ) 是 连续 变化 的 ,曲线 的 和 斜率 (导数 ) 
也 是 连续 变化 的 。 也 就 是 说 ，sigmoid 函数 的 导数 在 任何 地 方 都 不 为 0。 这 对 
神经 网 络 的 学 习 非 常 重要 。 得 益 于 这 个 斜率 不 会 为 0 的 性 质 ， 神 经 网 络 的 学 
习 得 以 正确 进行 。 
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4-4” 阶 路 函数 和 sigmoid AŽ: 阶 跃 消 数 的 科 率 在 绝 大 多 数 地 方 都 为 0， 而 sigmoid 函 
数 的 斜率 (切线 ) 不 会 为 0 


4.3 ”数值 微分 





梯度 法 使 用 梯度 的 信息 决定 前 进 的 方向 。 本 市 将 介绍 梯度 是 什么 、 有 什 
么 性 质 等 内 容 。 在 这 之 前 ， 我 们 先 来 介绍 一 下 导数 。 


4.3.1 ”导数 


假如 你 是 全 程 马拉松 选手 ， 在 开始 的 10 分 钟 内 跑 了 2 千 米 。 如 果 要 计算 
此 时 的 奔跑 速度 , 则 为 2/10 = 0.2[ FAK /分 l 也 就 是 说 , 你 以 1 分 钟 前 进 0.2 
千 米 的 速度 (变化 ) 奔跑。 

在 这 个 马拉松 的 例子 中 ,我 们 计算 了 “奔跑 的 距离 ”相对 于 “时 间 ”发生 
了 多 大 变化 。 不 过 ， 这 个 10 分 钟 跑 2 千 米 的 计算 方式 ， 严 格 地 讲 ， 计 算 的 是 
10 分 钟 内 的 平均 速度 。 而 导数 表示 的 是 某 个 瞬间 的 变化 量 。 因 此 ,将 10 分 
钟 这 一 时 间 段 尽 可 能 地 缩短 ， 比 如 计算 前 1 分 钟 奔跑 的 距离 、 前 1 秒 钟 奔跑 
的 距离 、 前 0.1 秒 钟 奔跑 的 距离 …… 这 样 就 可 以 获得 某 个 瞬间 的 变化 量 ( 某 个 
瞬时 速度 )。 

综 上 ， 导 数 就 是 表示 某 个 瞬间 的 变化 量 。 它 可 以 定义 成 下 面 的 式 子 。 

df(z) _ im FEE — f(x) 


dx h—0 











(4.4) 


式 (44) 表 示 的 是 函数 的 导数 。 左 边 的 符号 HO 表示 KF ME 
数 ， 即 F(z) 相 对 于 xz 的 变化 程度 。 式 (4.4) 表 示 的 导数 的 含义 是 ，z 的 “微小 
变化 ” 将 导致 函数 f(x) 的 值 在 多 大 程度 上 发 生变 化 。 其 中 ， 表 示 微 小 变化 的 
/无 限 趋 近 0， 表 示 为 lim 。 

接 下 来 ,我 们 参考 式 (4.4)， 来 实现 求 函数 的 导数 的 程序 。 如 果 直 接 实 
现 式 (4.4) 的 话 ， 向 户 中 赋 入 一 个 微小 值 ， 就 可 以 计算 出 来 了 。 比 如 ， 下 面 
的 实现 如 何 ? 








# 不 好 的 实现 示例 
def numerical diff(f, x): 
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h = 10e-50 

return (f(x+h) - f(x)) / h 

函数 numerical diff(f, x) 的 名 称 来 源 于 数值 微分 ”的 英文 numerical 
differentiation。 这 个 函数 有 两 个 参数 ， 即 “函数 f” 和 “ 传 给 函数 f 的 参数 x”。 
乍 一 看 这 个 实现 没有 问题 ， 但 是 实际 上 这 段 代 码 有 两 处 需要 改进 的 地 方 。 

在 上 面 的 实现 中 ， 因 为 想 把 尽 可 能 小 的 值 赋 给 h( 可 以 话 ， 想 让 h 无 限 接 
近 0)， 所 以 h 使 用 了 16e-56( 有 50 个 连续 的 0 的 “0.00:…1”) 这 个 微小 值 。 但 
是 ， 这 样 反 而 产生 了 舍 入 误差 (rounding error)。 所 请 舍 入 误差 ， 是 指 因 省 
略 小 数 的 精细 部 分 的 数值 (比如 ， 小 数 点 第 8 位 以 后 的 数值 ) 而 造成 最 终 的 计 
算 结果 上 的 误差 。 比 如 ， 在 Python 中 ， 售 人 误差 可 如 下 表示 。 











>>> np.float32(1e-50) 

0.0 

如 上 所 示 ， 如 果 用 float32 类 型 (32 位 的 浮 点 数 ) 来 表示 le-50， 就 会 变 成 
0.0, 无 法 正确 表示 出 来 。 也 就 是 说 ,使 用 过 小 的 值 会 造成 计算 机 出 现 计算 
上 的 问题 。 这 是 第 一 个 需要 改进 的 地 方 ， 即 将 微小 值 h 改 为 10“。 使 用 10 
就 可 以 得 到 正确 的 结果 。 

第 二 个 需要 改进 的 地 方 与 哺 数 f 的 差分 有 关 。 昌 然 上 述 实现 中 计算 了 区 
数 f 在 xth 和 x 之 间 的 差分 但 是 必须 注意 到 ， 这 个 计算 从 一 开始 就 有 误差 。 
如 图 4-5 所 示 ,“ 真 的 导数 ”对 应 函数 在 x 处 的 斜率 ( 称 为 切线 ),， 但 上 述 实 现 
中 计算 的 导数 对 应 的 是 (z 十 及 和 zz 之 间 的 斜率 。 因 此 ， 真 的 导数 ( 真 的 切线 ) 
和 上 述 实现 中 得 到 的 导数 的 值 在 严格 意义 上 并 不 一 致 。 这 个 差异 的 出 现 是 因 
为 h 不 可 能 无 限 接近 0。 

如 图 4-5 所 示 ， 数 值 微分 含有 误差 。 为 了 减 小 这 个 误差 ,我们 可 以 计算 
浮 数 在 (z 十 hn 和 (zx 一 hh) 之 间 的 差分 。 因 为 这 种 计算 方法 以 zx 为 中 心计 
算 它 左 右 两 边 的 差分 ， 所 以 也 称 为 中 心 差分 (而 (z 十 h) 和 zx 之 间 的 差分 称 为 
前 向 差分 )。 下 面 , 我 们 基于 上 述 两 个 要 改进 的 点 来 实现 数值 微分 (数值 梯度 )。 














CD 所 谓 数 值 微分 就 是 用 数值 方法 近似 求解 函数 的 导数 的 过 程 。 一 一 译 者 注 
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真 的 切线 / 


L 
S 


J EWR 


y = f(x) 





24-5 真 的 导数 ( 真 的 切线 ) 和 数值 微分 (近似 切线 ) 的 值 不 同 


def numerical diff(f, x): 


h = le-4 # 0.0001 
~ | 


return (f(xth) - f(x-h)) / (2*h) 


如 上 所 示 ， 利 用 微小 的 差分 来 导数 的 过 程 称 为 数值 微分 (numerical 
differentiation )。 而 基于 数学 式 的 推导 求 导数 的 过 程 ， 则 用 “解析 
性 "(analytic) 一 词 ， 称 为 “解析 性 求解 ” 或 者 “解析 性 求 导 "。 比 如 ， 
= a^ 的 导数 , 可 以 通过 哇 = 2r 解析 性 地 求解 出 来 。 因 此, 当 z = 2 时 ， 
解析 性 求 导 ,得 到 的 导数 是 不 含 误差 的 “BAN SEL’ S 





4.3.2 ”数值 微分 的 例子 


现在 我 们 试 着 用 上 述 的 数值 微分 对 简单 函数 进行 求 导 。 先 来 看 一 个 由 下 
式 表示 的 2 次 函数 。 





y= 0.01z^ + 0.12 (4.5) 
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用 Python 来 实现 式 (4.5)， 如 下 所 示 。 


def function 1(x): 
return 0.01*x**2 + 0.1*x 


接 下 来 ， 我 们 来 绘制 这 个 函数 的 图 像 。 画 图 所 用 的 代码 如 下 ， 生 成 的 图 
像 如 图 4-6 所 示 。 


import numpy as np 
import matplotlib.pylab as plt 


np.arange(0.0, 20.0, 0.1) # 以 0.1 为 单位 从 0 到 20 的 数组 x 
function 1(x) 

plt.xlabel("x") 

plt.ylabel("f(x)") 

plt.plot(x, y) 

plt.show() 





图 4-6 f(x) = 0.01z” 十 0.1z 的 图 像 


我 们 来 计算 一 下 这 个 函数 在 z=5 和 zz= 10 处 的 导数 。 
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>>> numerical diff(function 1, 5) 
0.1999999999990898 
>>> numerical diff(function 1, 10) 
0.2999999999986347 


这 里 计算 的 导数 是 f(x) AAT F ER 455, eR EY BER 23 Pb, 
f(x) = 0.012? + 0.1x AY fit pr fe dà 9502 = 0.022 --0.1, 因此 , YE — 5I 
z-— 104b, “FAS SR” 分别 为 0.2 和 0.3。 和 上 面 的 结果 相 比 ， 我 们 发 现 虽 然 
严格 意义 上 它们 并 不 一 致 ， 但 误差 非常 小 。 实 际 上 ， 误 差 小 到 基本 上 可 以 认 
为 它们 是 相等 的 。 

现在 ,我们 用 上 面 的 数值 微分 的 值 作为 斜率 ， 画 一 条 下 线 。 绪 果 如 图 47 
所 示 ， 可 以 确认 这 些 下 线 确实 对 应 函数 的 切线 ( 源 代 码 在 ch04/gradient_1d. 
py 中 )。 











图 47 z= 二 5、z = 二 10 处 的 切线 : 直线 的 斜率 使 用 数值 微分 的 值 


4.3.8 (Sa 


接 下 来 ， 我 们 看 一 下 式 (4.6) 表示 的 函数 。 虽 然 它 只 是 一 个 计算 参数 的 
平方 和 的 简单 函数 ， 但 是 请 注意 和 上 例 不 同 的 是 ， 这 里 有 两 个 变量 。 








f(z0, £1) = zô + z1 (4.6) 
这 个 式 子 可 以 用 Python 来 实现 ， 如 下 所 示 。 


def function 2(x): 
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return x[0]**2 + x[1]**2 
# 或 者 return np.sum(x**2) 

这 里 ,我 们 假定 向 参数 输入 了 一 个 NumPy 数 组 。 函 数 的 内 部 实现 比较 
何 单 ， 先 计算 NumPy 数 组 中 各 个 元 双 的 平方 ， 再 求 它们 的 和 (np.sum(x**2) 
也 可 以 实现 同样 的 处 理 )。 我 们 来 画 一 下 这 个 函数 的 图 像 。 结 果 如 图 4-8 所 示 ， 
是 一 个 三 维 图 像 。 





图 4-8 了 (zo,zi) = xå + x? 的 图 像 


现在 我 们 来 求 式 (4.6) 的 导数 。 这 里 需要 注意 的 是 , 式 (4.6) 有 两 个 变量 ， 
所 以 有 必要 区 分 对 哪个 变量 求 导数 ， 即 对 zo 和 zz 两 个 变量 中 的 哪 一 个 求 导数 。 
另外 ,我 们 把 这 里 讨论 的 有 多 个 变量 的 函数 的 导数 称 为 偏 导数 。 用 数学 式 表 
mA. WWM AL. AL. 

怎么 求 偏 导数 呢 ?” 我 们 先 试 着 解 一 下 下 面 两 个 关于 偏 导数 的 问题 。 
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问题 1: To= HA AT xo BS ei SEC xL o 


>>> def function_tmp1(x0): 
return x0*x0 + 4.0**2.0 


>>> numerical_diff(function_tmp1, 3.0) 
6.00000000000378 





oje 2: kasd m ABT, 关于 zi 的 偏 导 数 o 


>>> def function_tmp2(x1): 
return 3.0**2.0 + x1*x1 


>>> numerical_diff(function_tmp2, 4.0) 
7.999999999999119 


在 这 些 问 题 中 ， 我 们 定义 了 一 个 只 有 一 个 变量 的 函数 ， 并 对 这 个 函数 进 
行 了 求 导 。 例 如 ， 问 题 1 中 ,我 们 定义 了 一 个 固定 zi 三 4 的 新 图 数 ， 然 后 对 
只 有 变量 xz 的 也 数 应 用 了 求 数值 微分 的 函数 。 从 上 面 的 计算 结果 可 知 ， 问 题 
1 的 答案 是 6.00000000000378， 问 题 2 的 答案 是 7.999999999999119， 和 解析 
解 的 导数 基本 一 致 。 

像 这 样 ， 俩 导数 和 单 变量 的 导数 一 样 ， 都 是 求 某 个 地 方 的 料 挛 。 不 过 ， 
偶 寻 效 震 要 将 多 个 变量 中 的 茶 一 个 变量 定 为 目标 变量 ， 并 将 其 他 变量 固定 为 
某 个 值 。 在 上 例 的 代码 中 ， 为 了 将 目标 变量 以 外 的 变量 固定 到 某 些 特定 的 值 
上 ,我 们 定义 了 新 函数 。 然 后， 对 新 定义 的 孔 数 应 用 了 之 前 的 求 数 值 微分 的 
函数 ， 得 到 偏 导数 。 




















44 ”梯度 





在 刚才 的 例子 中 ,我 们 按 变 量 分 别 计算 了 zo 和 zi 的 偏 导数 。 现 在 ， 我 
们 希望 一 起 计算 zo 和 zx! 的 偏 导数 。 比 如 , 我 们 来 考虑 求 20 = 3, zi = 4 时 (zo 23) 
Rode (SL, 25). 另外 , GR (SL, SL) opm epe BR i CE d 
而 成 的 向 量 称 为 梯度 (gradient)。 梯 度 可 以 像 下 面 这 样 来 实现 。 
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def numerical gradient(f, x): 
h = le-4 # 0.0001 
grad = np.zeros like(x) # 生成 和 x 形状 相同 的 数组 
for idx in range(x.size): 
tmp val = x[idx] 
# f(x+h) 的 计算 
x[idx] = tmp val + h 
fxhl = f(x) 
# f(x-h) 的 计算 
x[idx] = tmp val - h 
fxh2 = f(x) 


grad[idx] = (fxh1 - fxh2) / (2*h) 
x[idx] = tmp val # 还 原 值 


return grad 


PK numerical_gradient(f, x) 的 实现 看 上 去 有 些 复杂 ， 但 它 执行 的 处 
理 和 求 单 变 量 的 数值 微分 基本 没有 区 别 。 需 要 补充 说 明 一 下 的 是 ，np.zeros_ 
Like(x) 会 生成 一 个 形状 和 x 相 同 、 所 有 元 素 都 为 0 的 数组 。 

PA numerical gradient(f, x) H, Bart HKZ, x NumPy ZH, i%K 
函数 对 NumPy 数 组 x 的 各 个 元 素 求 数值 微分 。 现 在 ,我 们 用 这 个 函数 实际 
计算 一 下 梯度 。 这 里 我 们 求 点 (3, 4)、(0, 2)、(3, 0) 处 的 梯度 。 





>>> numerical_gradient(function 2, np.array([3.0, 4.0])) 
array([ 6., 8.])” 

>>> numerical gradient(function 2, np.array([0.0, 2.0])) 
array([ 0., 4.]) 

>>> numerical gradient(function 2, np.array([3.0, 0.0])) 
array([ 6., 0.]) 


像 这 样 ， 我 们 可 以 计算 (xo, zi) 在 各 点 处 的 梯度 。 上 例 中 ， 点 (3 inn 
梯度 是 (6, 8)、 点 (0, 2) 处 的 梯度 是 (0,4)、 点 (3,0) 人 处 的 梯度 是 (6,0)。 
梯度 意味 着 什么 呢 ” 为 了 更 好 地 理解 ， 我 们 把 f(xo +r) = r+ r? i 
画 在 图 上 。 不 过 ， 这 里 我 们 画 的 是 元 素 值 为 负 梯 度 ” 的 向 量 ( 源 代 码 在 cho4/ 


gradient 2d.py 中 )。 








(D 实际 上 , 虽然 求 到 的 值 是 [6.0000000000037801，7.99999999999911891 , 但 实际 输出 的 是 [6.，8.1]。 
这 是 因为 在 输出 NumPy 数 组 时 ， 数 值 会 被 改 成 “ 易 读 ”的 形式 。 
D 后 面 我 们 将 会 看 到 ， 负 梯度 方向 是 梯度 法 中 变量 的 更 新 方向 。 一 一 译 者 注 
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如 图 4-9 所 示 ，f (zo +21) = za 十 21 的 梯度 呈现 为 有 向 向 量 ( 箭 头 )。 观 
察 图 49， 我 们 发 现 梯 度 指 回国 数 (0,071) 的 “最 低 处 “最 小 值 )， 就 像 指 南 针 
一 样 ,所 有 的 箭头 都 指 癌 同一 点 。 其 次 , 我 们 发 现 离 “ 最 低 处 ” 越 远 , 箭头 越 大 。 
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图 4-9 f(x0,71) = x + x? 的 梯度 





虽然 图 4-9 中 的 梯度 指 回 了 最 低 处 ,但 并 非 任何 时 候 都 这 样 。 实 际 上 ，， 
梯度 会 指 加 各 点 处 的 函数 值 降低 的 方向 。 更 严格 地 讲 ， 梯 度 指示 的 方 回 
是 各 点 处 的 函数 值 减 小 最 多 的 方向 "。 这 是 一 个 非常 重要 的 性 质 ， 请 一 定 
牢记 ! 


4.4.1 ”梯度 法 


机 融 尝 习 的 主要 任务 是 在 学 习 时 寻找 最 优 参数 。 同 样 地 ， 和 神经 网 络 也 必 
须 在 学 习 时 找到 最 优 参数 (权重 和 侦 置 )。 这 里 所 说 的 最 优 参数 是 指 损失 函数 














(D 高 等 数学 告诉 我 们 ， 方 向 导数 = cos(0) x 梯度 (0 是 方向 导数 的 方向 与 梯度 方向 的 夹 角 ) 因此 ， 所 
有 的 下 降 方向 中 ， 梯 度 方向 下 降 最 多 。 一 一 译 者 注 
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Kus MEINES, (AE, MIM, TARP, SATIEK, d 
们 不 知道 它 在 何 处 能 取得 最 小 值 。 而 通过 巧妙 地 使 用 梯度 来 寻找 函数 最 小 值 
(或 者 尽 可 能 小 的 值 ) 的 方法 就 是 梯度 法 。 

这 里 再 要 注意 的 是 , 梯度 表示 的 是 各 点 处 的 郴 数值 减 小 最 多 的 方 同 。 因 此 ， 
无 法 保证 标 度 所 指 的 方向 就 是 函数 的 最 小 值 或 者 真正 应 该 前 进 的 方向 。 实 际 
上 ,在 复 柳 的 函数 中 ， 黎 度 指示 的 方向 基本 上 虱 不 是 水 数 值 最 小 处 。 























78 o 函数 的 极 小 值 、 最 小 值 以 及 被 称 为 鞍点 (saddle point) 的 地 方 ， 
PM 梯度 为 0。 极 小 值 是 局 部 最 小 值 ， 也 就 是 限定 在 某 个 范围 内 的 最 


JS 小 值 。 鞍 点 是 从 某 个 方向 上 看 是 极 大 值 ， 从 另 一 个 方向 上 看 则 是 
极 小 值 的 点 。 虽 然 梯度 法 是 要 寻找 梯度 为 0 的 地 方 ， 但 是 那个 地 
方 不 一 定 就 是 最 小 值 ( 也 有 可 能 是 极 小 值 或 者 鞍点 )。 此 外 ， 当 函 
数 很 复杂 且 呈 扁平 状 时 ， 学 习 可 能 会 进入 一 个 (几乎) 平坦 的 地 区 ， 
陷入 被 称 为 “学 习 高 原 ” 的 无 法 前 进 的 停滞 期 。 





虽然 梯度 的 方 回 并 不 一 定 指 癌 最 小 值 ， 但 治 着 它 的 方 回 能 够 最 大 限度 地 
减 小 函数 的 值 。 因 此 ， 在 寻找 函数 的 最 小 值 ( 或 者 尽 可 能 小 的 值 ) 的 位 置 的 
任务 中 ,要 以 梯度 的 信息 为 线索 ， 决定 前 进 的 方 癌 。 

此 时 梯度 法 就 派 上 用 场 了 。 在 梯度 法 中 ， 世 数 的 取 值 从 当前 位 置 沿 痢 梯 
度 方向 前 进 一 定 距离 ， 然 后 在 新 的 地 方 重新 求 梯度 ， 再 沿 着 新 梯度 方 癌 前进， 
如 此 反复 , 不断 地 沿 梯 度 方向 前 进 。 像 这 样 ， 通 过 不 断 地 沿 梯 度 方 向 前 进 ， 
逐渐 减 小 图 数值 的 过 程 就 是 梯度 法 (gradient method), 梯度 法 是 解决 机 玫 
学 习 中 最 优化 问题 的 常用 方法 ， 特 别 是 在 神经 网 络 的 学 习 中 经 党 被 使 用 。 























根据 目的 是 寻找 最 小 值 还 是 最 大 值 , 梯度 法 的 叫 法 有 所 不 同 。 严格 地 讲 ， 
寻找 最 小 值 的 梯度 法 称 为 梯度 下 降 法 (gradient descent method), 
寻找 最 大 值 的 梯度 法 称 为 梯度 上 升 法 (gradient ascent method), 但 
是 通过 反 转 损失 函数 的 符号 ， 求 最 小 值 的 问题 和 求 最 大 值 的 问题 会 
变 成 相同 的 问题 ， 因 此 “下 降 ” 还 是 “上 升 ”的 差异 本 质 上 并 不 重要 。 
一 般 来 说 ， 神 经 网 络 (深度 学 习 ) 中 ， 梯 度 法 主要 是 指 梯度 下 降 法 。 
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现在 ， 我 们 尝试 用 数学 式 来 表示 梯度 法 ， 如 式 (4.7) 所 示 。 


Of 
EL Ec m 

af (4.7) 
ficco E 





式 (4.7) 的 7 表示 更 新 量 ， 在 神经 网 络 的 学 习 中 ， 称 为 学 习 率 (earning 
rate)。 学 习 率 决定 在 一 次 学 习 中 , 应 该 学 习 多 少 , 以 及 在 多 大 程度 上 更 新 参数 。 

式 (4.7) 是 表示 更 新 一 次 的 式 子 ， 这 个 步骤 会 反复 执行 。 也 就 是 说 ， 每 
一 步 都 按 式 (4.7) 更 新 变量 的 值 ， 通过 反复 执行 此 步 毕 ， 逐 渐 减 小 函数 值 。 
虽然 这 里 只 展示 了 有 两 个 变量 时 的 更 新 过 程 ， 但 是 即便 增加 变量 的 数量 ， 也 
可 以 通过 类 似 的 式 子 (各 个 变量 的 偏 导 数 ) 进行 更 新 。 

学 习 率 需要 事先 确定 为 某 个 值 ， 比 如 0.01 或 0.001。 一 般 而 言 ， 这 个 值 
过 大 或 过 小 ， 都 无 法 抵达 一 个 “好 的 位 置 ”"。 在 神经 网 络 的 学 习 中 ,一般 会 
一 边 改 变 学 习 率 的 值 ， 一 边 确认 学 习 是 否 正确 进行 了 。 

下 面 ， 我 们 用 Python 来 实现 梯度 下 降 法 。 如 下 所 示 ， 这 个 实现 很 简单 。 


























def gradient descent(f, init x, lr=0.01, step num-100): 
X = init x 


for i in range(step num): 
grad = numerical gradient(f, x) 
X -= lr * grad 


return x 


参数 f 是 要 进行 最 优化 的 图 数 ，init_x 是 初始 信 ，Lr 是 学 习 率 learning 
rate，step_num 是 梯度 法 的 重复 次 数 。numericatL_ gradient(f,x) 会 求 函 数 的 
梯度 ， 用 该 梯度 乘 以 学 习 率 得 到 的 值 进行 更 新 操作 ， 由 step_num 指 定 重复 的 
次 数 。 

使 用 这 个 函数 可 以 求 函 数 的 极 小 值 ， 顺 利 的 话 ， 还 可 以 求 函 数 的 最 小 值 。 
下 面 ， 我 们 就 来 尝试 解决 下 面 这 个 问题 。 
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问题 : 请 用 梯度 法 求 f(zo +21) = x6 + x1 的 最 小 值 。 


>>> def function 2(x): 
return x[0]**2 + x[1]**2 


>>> init x = np.array([-3.0, 4.0]) 
>>> gradient descent(function 2, init x-init x, lr-0.1, step num-100) 
array([ -6.11110793e-10, 8.14814391e-10]) 





这 里 ， 设 初始 值 为 (-3.9，4.69) ， 开 始 使 用 梯度 法 寻找 最 小 值 。 最 终 的 结 
RÆ (-6.1e-10, 8.1e-10), 非常 接近 (0, 9) 。 实 际 上 , 真 的 最 小 值 就 是 (9, 0), 
所 以 说 通过 梯度 法 我 们 基本 得 到 了 正确 结果 。 如 果 用 图 来 表示 梯度 法 的 更 新 
过 程 ， 则 如 图 410 所 示 。 可 以 发 现 ， 原 点 处 是 最 低 的 地 方 ， 函 数 的 取 值 一 
点 点 在 癌 其 靠近 。 这 个 图 的 源 代 码 在 chg4/gradient_method.py 中 (但 ch04/ 
gradient method.py 不 显示 表示 等 高 线 的 虚线 )。 























图 4-10 f(zo, zw1) = 26 c «1 的 梯度 法 的 更 新 过 程 : 虚线 是 函数 的 等 高 线 


前 面 说 过 ， 学 习 率 过 大 或 者 过 小 都 无 法 得 到 好 的 结果 。 我 们 来 做 个 实验 
验证 一 下 。 

# 学 习 率 过 大 的 例子 : Lr=10.0 

>>> init x = np.array([-3.0, 4.0]) 


>>> gradient descent(function 2, init x-init x, lr-10.0, step num-100) 
array([ -2.58983747e+13, -1.29524862e+12] ) 


# 学 习 率 过 小 的 例子 : Lr=le-10 

>>> init_x = np.array([-3.0, 4.0]) 

>>> gradient descent(function 2, init x-init x, lr=le-10, step num-100) 
array([-2.99999994, 3.99999992]) 


实验 结果 表明 ， 学 习 率 过 大 的 话 ， 会 发 散 成 一 个 很 大 的 值 ， 反 过 来 ， 学 
习 率 过 小 的 话 ， 基 本 上 没 怎么 更 新 就 结束 了 。 也 就 是 说 ， 设 定 合适 的 学 习 率 
是 一 个 很 重要 的 问题 。 





像 学 习 率 这 样 的 参数 称 为 超 参数 。 这 是 一 种 和 神经 网 络 的 参数 (权重 
和 含 置 ) 性 质 不 同 的 参数 。 相 对 于 神经 网 络 的 权重 参数 是 通过 训练 
数据 和 学 习 算 法 自动 获得 的 ， 学 习 率 这 样 的 超 参数 则 是 人 工 设 定 的 。 
一 般 来 说 ， 超 参数 需要 尝试 多 个 值 ， 以 便 找到 一 种 可 以 使 学 习 顺 利 


进行 的 设 定 。 





4.4.2 ”神经 网 络 的 梯度 


神经 网 络 的 学 习 也 要 求 梯度 。 这 里 所 说 的 梯度 是 指 损失 函数 关于 权重 参 
数 的 梯度 。 比 如 ， 有 一 个 只 有 一 个 形状 为 2 x 3 的 权重 Vz 的 神经 网 络 ， 损 失 
函数 用 二 表 示 。 此 时 ,梯度 可 以 用 六 多 表示 。 用 数学 式 表 示 的 话 ， 如 下 所 示 。 


WIl W12 W13 
W = 
W21 W22 W23 























aL OL OL OL (4.8) 
— ðwıı Ow12 Ow13 
OW | | OL OL OL 

Owe) Owo22 O23 


aw 的 元 素 由 各 个 元 素 关于 W 的 偏 导 数 构成 。 比 如 ,第 1 行 第 1 列 的 元 
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R Pe 表示 当 wii 稍 微 变化 时 ,损失 函数 工会 发 生 多 大 变化 。 这 里 的 重点 是 ， 
Ae 的 形状 和 W 相同。 实际 上 ， 式 (4.8) 中 的 WW 各 入 都 是 2 x 3 的 形状 。 

Pi, 我 们 以 一 个 简单 的 神经 网 络 为 例 ， 来 实现 求 梯度 的 代码 。 为 此 ， 
我 们 要 实现 一 个 名 为 simpleNet 的 类 ( 源 代 人 码 在 ch04/gradient simplenet.py 
HP), 





import sys, os 

Sys.path.append(os.pardir) 

import numpy as np 

from common.functions import softmax, cross entropy error 
from common.gradient import numerical gradient 


class simpleNet: 
def init (self): 
self.W = np.random.randn(2,3) # 用 高 斯 分 布 进行 初始 化 


def predict(self, x): 
return np.dot(x, self.W) 


def loss(self, x, t): 
z = self.predict(x) 
y = softmax(z) 
loss = cross entropy error(y, t) 


return loss 


ix E fE FH. common/functions. py F [fJ softmax Al] cross entropy error 77 
YE, PIK common/gradient.py Hj numerical gradient J7JE, simpleNet 28 HÉ 
一 个 实例 变量 ， 即 形状 为 2x 3 的 权重 参数 。 它 有 两 个 方法 ， 一 个 是 用 于 预 
测 的 predict(x) ， 另 一 个 是 用 于 求 损失 函数 值 的 Loss(x,t)。 这 里 参数 x 接 收 
输入 数据 ，t 接 收 正确 解 标 签 。 现 在 我 们 来 试 着 用 一 下 这 个 simpteNet, 








>>> net = simpleNet() 

>>> print(net.W) 4 权重 参数 

[[ 0.47355232 0.9977393 0.84668094], 
[ 0.85557411 0.03563661  0.69422093]]) 

>>> 

>>> X 


np.array([0.6, 0.9]) 
>>> p = net.predict(x) 
>>> print(p) 
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[ 1.05414809 0.63071653 1.1328074] 
>>> np.argmax(p) # 最 大 值 的 索引 


>>> t = np.array([0, 0, 1]) # 正确 解 标 签 
>>> net.loss(x, t) 
0.92806853663411326 


接 下 来 求 梯 度 。 和 前 面 一 样 ， 我 们 使 用 numericat gradient(f，x) 求 梯 


度 ( 这 里 定义 的 函数 f(W) 的 参数 W 是 一 个 伪 人 参数 。 因 为 numericat gradient (f， 
x) 会 在 内 部 执行 f(x), 为 了 与 之 兼容 而 定义 了 f(wW) )。 








>>> def f(W): 
return net.loss(x, t) 


>>> dW = numerical gradient(f, net.W) 

>>> print(dW) 

[[ 0.21924763 0.14356247 -0.36281009] 
[ 0.32887144 0.2153437 -0.54421514]] 


numerical gradient(f, x) 的 参数 f 是 函数 , x 是 传 给 函数 f 的 参数 。 因 此 ， 
neal 并 定义 一 个 计算 损失 函数 的 新 函数 f， 然 后 把 这 个 新 定 
义 的 函数 传递 给 numerical gradient(f, x), 

numerical gradient(f, net.W) 的 结果 是 dw, 一 个 形状 为 2 x 3 的 二 维 数 组 。 
观察 一 下 dw ALAS, Dd, SER AUS 中 的 妖 才 的 值 大 约 是 0.2， 这 表示 如 
— 那么 损 K FEU, E 对 应 的 值 大 约 

一 0.5， 这 表示 如 果 将 wzss 增 加 hh， 损 失 也 数 的 值 将 减 小 0.5h。 因 此 ， 从 减 
ee was 应 癌 正 方向 更 新 ，wn 应 癌 负 方向 更 新 。 至 于 
更 新 的 程度 ，wzs 比 wi 的 贡献 要 大 。 

另外 ,在 上 面 的 代码 中 ,定义 新 函数 时 使 用 了 “def f(x):…” 的 形式 。 
KIRE, Python 中 如 有 果 定 义 的 是 简单 的 函数 ， 可 以 使 用 lambda 表 示 法 。 使 
用 tambda 的 情况 下 ， 上 述 代码 可 以 如 下 实现 。 














>>> f = lambda w: net.loss(x, t) 
>>> dW = numerical gradient(f, net.W) 
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求 出 神经 网 络 的 梯度 后 ， 接 下 来 只 需 根 据 梯度 法 ， 更 新 权重 参数 即 可 。 
在 下 一 节 中 ， 我 们 会 以 2 层 神 经 网 络 为 例 ， 实 现 整 个 学 习 过 程 。 








为 了 对 应 形状 为 多 维 数组 的 权重 参数 W， 这 里 使 用 的 numericalt_ 
gradient() 和 之 前 的 实现 稍 有 不 同 。 不 过 ， 改 动 只 是 为 了 对 应 多 维 
数组 ， 所 以 改动 并 不 大 。 这 里 省 略 了 对 代码 的 说 明 ， 想 知道 细 市 的 
读者 请 参考 源 代码 ( common/gradient. py), 





45 学 习 算 法 的 实现 


关于 神经 网 络 学 习 的 基础 知识 ,到 这 里 就 全 部 介绍 完了 。 损失 函 
数 ”“mini-batch”“ 梯 度 ”“ 棉 度 下 降 法 ”等 天 键 词 已 经 陆续 登场 ， 这 里 我 们 
来 确认 一 下 神经 网 络 的 学 习 步 又 ， 顺 便 复 习 一 下 这 些 内容 。 神 经 网 络 的 学 习 
ZEE UI P BIN. 





前 提 
神经 网 络 存 在 合适 的 权重 和 偏 置 ， 调 整 权 重 和 偏 置 以 便 拟 合 训 练 数据 的 
过 程 称 为 “学 习 ”。 神 经 网 络 的 学 习 分 成 下 面 4 个 步骤 。 


步骤 1 (mini-batch ) 
从 训练 数据 中 随机 选 出 一 部 分 数据 ， 这 部 分 数据 称 为 mini-batch。 我 们 
的 目标 是 减 小 mmini-batch 的 损失 有 函数 的 值 。 


步骤 2( 计 算 梯 度 ) 
为 了 减 小 mini-batch 的 损失 函数 的 值 ， 需 要 求 出 各 个 权重 参数 的 梯度 。 
梯度 表示 损失 函数 的 值 减 小 最 多 的 方向 。 


步骤 3 (更 新 参数 ) 
将 权重 参数 沿 梯度 方向 进行 微小 更 新 。 
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n 经 网 络 的 学 习 按 照 上 面 4 个 步骤 进行 。 这 个 方法 通过 梯度 下 降 法 更 新 
参数 ， 不 过 因为 这 里 使 用 的 数据 是 随机 选择 的 mini batch 数 据 ， 所 以 又 称 为 
随机 梯度 下 降 法 (stochastic gradient descent )。“ 随 机 ” 指 的 是 “随机 选择 的 ” 
的 意思 ， 因 此 ， 随 机 梯度 下 降 法 是 “对 随机 选择 的 数据 进行 的 梯度 下 降 法 ”。 
深度 学 习 的 很 多 框架 中 ,随机 梯度 下 降 法 一 般 由 一 个 名 为 SGD 的 函数 来 实现 。 
SGD 来 源 于 随机 梯度 下 降 法 的 英文 名 称 的 首 字 母 。 

下 面 ， 我 们 来 实现 手写 数字 识别 的 神经 网 络 。 这 里 以 2 层 神 经 网 络 ( 隐 
藏 层 为 1 层 的 网 络 ) 为 对 象 ， 使 用 MNIST 数 据 集 进行 学 习 








4.5.1 2 层 神经 网 络 的 类 


首先 ， 我 们 将 这 个 2 层 神经 网 络 实现 为 一 个 名 为 TwoLayerNet 的 类 ， 实 现 
过 程 如 下 所 示 ”。 源 代码 在 ch64/two_tlayer_net.py 中 。 





import sys, os 

Sys.path.append(os.pardir) 

from common.functions import * 

from common.gradient import numerical gradient 


class TwoLayerNet: 


def | init (self, input size, hidden size, output size, 
weight init std=0.01): 
# 初始 化 权重 
self.params = {} 
self.params['W1' ] 


weight init std * V 
np.random.randn(input size, hidden size) 
np.zeros(hidden size) 

weight init std * V 
np.random.randn(hidden size, output size) 
np.zeros(output size) 


self.params['b1'] 
self.params['W2'] 


self.params['b2'] 





(D TwoLayerNet 的 实现 参考 了 斯 坦 福 大 学 CS231ln 课 程 提供 的 Python 源 代 码 。 


def predict(self, x): 
W1, W2 = self.params['W1'], self.params['W2'] 
bl, b2 = self.params['b1'], self.params['b2'] 


al = np.dot(x, W1) + bl 
zl = sigmoid(al) 
a2 = np.dot(zl, W2) + b2 
y = softmax(a2) 


return y 
# xX: 输入 数据 ，t: 监督 数据 
def loss(self, x, t): 

y = self.predict(x) 


return cross entropy error(y, t) 


def accuracy(self, x, t): 
y = self.predict(x) 


y = np.argmax(y, axis-1) 
t = np.argmax(t, axis-1) 
accuracy = np.sum(y == t) / float(x.shape[0] ) 


return accuracy 


# x: 输入 数据 ，t: 监督 数据 
def numerical gradient(self, x, t): 
loss W = lambda W: self.loss(x, t) 


grads = {} 

grads['W1'] = numerical gradient(loss W, self.params[ 'W1' ] 
grads['b1'] = numerical gradient(loss W, self.params['b1'] 
grads['W2'] = numerical gradient(loss W, self.params['W2'] 
grads['b2'] = numerical gradient(loss W, self.params['b2'] 


) 
) 
) 
) 


return grads 





BLAU TAR ASE CR AK, TEE AA AE SER TEES T4 RI RU F6) Ab 
理 的 实现 有 许多 共通 之 处 ， 所 以 并 没有 太 多 新 东西 。 我 们 先 把 这 个 类 中 用 到 
的 变量 和 方法 整理 一 下 。 表 4-1 中 只 罗列 了 重要 的 变量 ,， 表 4-2 中 则 罗列 了 所 
有 的 方法 。 
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表 4-1 TwolayerNet 类 中 使 用 的 变量 












params 保存 神经 网 络 的 参数 的 字典 型 变量 (实例 变量 )。 
params['W1'] 是 第 1 层 的 权重 ，params['b1'] 是 第 1 层 的 偏 置 。 


params['W2'] 是 第 2 层 的 权重 ，params['b2'] 是 第 2 层 的 偏 置 

保存 梯度 的 字典 型 变量 (numerical_gradient() 方 法 的 返回 值 )。 
grads['W1'] 是 第 1 层 权 重 的 梯度 ，grads['b1'] 是 第 1 层 偏 置 的 梯度 。 
grads['W2'] 是 第 2 层 权 重 的 梯度 ，grads['b2'] 是 第 2 层 偏 置 的 梯度 





grads 


表 4-2 TwoLayerNet 类 的 方法 


A WE BH 
| init (self, input size, | 进行 初始 化 。 


hidden size, output size) 参数 从 头 开 始 依次 表示 输入 层 的 神经 元 数 、 隐 藏 层 
的 神经 元 数 、 输 出 层 的 神经 元 数 

进行 识别 (推理 )。 

参数 x 是 图 像 数 据 

TTA PRA EL o 

参数 x 是 图 像 数 据 ，t 是 正确 解 标 签 (后 面 3 个 方法 
的 参数 也 一 样 ) 

计算 识别 精度 

计算 权重 参数 的 梯度 

计算 权重 参数 的 梯度 。 

numerical gradient() 的 高 速 版 ， 将 在 下 一 章 实 现 


predict(self, x) 


loss(self, x, t) 


accuracy(self, x, t) 


numerical gradient(self, x, t) 


gradient(self, x, t) 





TwoLayerNet 类 有 params 和 grads 两 个 字典 型 实例 变量 。params 变量 中 保存 
了 权重 参数 ， 比 如 params['W1'] 以 NumPy 数 组 的 形式 保存 了 第 1 层 的 权重 参 
数 。 此 外 ,第 1 层 的 偏 置 可 以 通过 param['b1'] 进行 访问 。 这 里 来 看 一 个 例子 。 


net = TwoLayerNet(input size-784, hidden size-100, output size-10) 
net.params['Wl'].shape # (784, 100) 

net.params['bl'].shape # (100,) 

net.params['W2'].shape £ (100, 10) 

net.params['b2'].shape £ (10,) 
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如 上 所 示 ，params 变量 中 保存 了 该 神经 网 络 所 需 的 全 部 参数 。 并且 ， 
params 变量 中 保存 的 权重 参数 会 用 在 推理 处 理 ( 前 向 处 理 ) 中 。 顺 便 说 一 下 ， 
推理 处 理 的 实现 如 下 所 示 。 








np.random.rand(100, 784) # 伪 输入 数据 (100 笔 ) 
net.predict(x) 


X 
y 





此 外 , $ params 变量 对 应 ,grads 变 量 中 保存 了 各 个 参数 的 梯度 。 如 下 所 示 ， 
使 用 numericat_gradient() 方 法 计算 梯度 后 ,梯度 的 信息 将 保存 在 grads 变 





np.random.rand(100, 784) # 伪 输 入 数据 (100 笔 ) 
np.random.rand(100, 10) # 伪 正 确 解 标签 (100 笔 ) 


t 


grads = net.numerical gradient(x, t) # 计算 梯度 


grads['Wl'].shape # (784, 100) 
grads['bl'].shape # (100,) 
grads['W2'].shape # (100, 10) 
grads['b2'].shape # (10,) 


接着 ， 我 们 来 看 一 下 TwoLayerNet 的 方法 的 实现 。 首 先是 _init (self, 
input size, hidden size, output size) 方 法 ， 它 是 类 的 初始 化 方法 (所 谓 初 
始 化 方法 ,就 是 生成 TwoLayerNet 实例 时 被 调用 的 方法 )。 从 第 1 个 参数 开始 ， 
依次 表示 输入 层 的 神经 元 数 、 隐 藏 层 的 神经 元 数 、 输 出 层 的 神经 元 数 。 另 外 ， 
因为 进行 手写 数字 识别 时 , 输入 图 像 的 大 小 是 784(28 x 28), 输出 为 10 个 类 别 ， 
所 以 指定 参数 input _size=784、output_size=10， 将 隐藏 层 的 个 数 hidden_size 
设置 为 一 个 合适 的 值 即 可 。 

此 外 ， 这 个 初始 化 方法 会 对 权重 参数 进行 初始 化 。 如 何 设置 权重 参数 
的 初始 值 这 个 问题 是 关系 到 神经 网 络 能 否 成 功 学 习 的 重要 问题 。 后 面 我 
们 会 详细 讨论 权重 参数 的 初始 化 , 这 里 只 需要 知道 ,权重 使 用 符合 高 斯 
分 布 的 随机 数 进行 初始 化 ， 侦 置 使 用 0 进行 初始 化 。predict(seLf，x) 和 
accuracy(self, x, t) 的 实现 和 上 一 章 的 神经 网 络 的 推理 处 理 基 本 一 样 。 如 
果 仍 有 不 明白 的 地 方 ， 请 再 回顾 一 下 上 一 章 的 内 容 。 另 外 ，tLoss(seLf，x，t) 











14 | #42 神经 网 络 的 学 习 





是 计算 损失 函数 值 的 方法 。 这 个 方法 会 基于 predict() 的 结果 和 正确 解 标签 ， 
计算 交叉 精 误差 。 

剩 下 的 numericat_ gradient(seLf，x，t) 方 法 会 计算 各 个 参数 的 梯度 。 根 
据 数 值 微分 , 计算 各 个 参数 相对 于 损失 隔 数 的 梯度 。 男 外 , gradient(self, x, t) 
是 下 一 革 要 实现 的 方法 ,该 方法 使 用 误差 反问 传播 法 高 效 地 计算 梯度 。 


numerical gradient(self, x, t) 基于 数值 微分 计算 参数 的 梯度 。 下 
一 章 ， 我 们 会 介绍 一 个 高 速 计算 梯度 的 方法 ， 称 为 误差 反 向 传播 法 。 
用 误差 反 向 传播 法 求 到 的 梯度 和 数值 微分 的 结果 基本 一 致 ， 但 可 以 
高 速 地 进行 处 理 。 使 用 误差 反 向 传播 法 计算 梯度 的 gradient (self， 
x, t) 方法 会 在 下 一 章 实 现 ， 不 过 考虑 到 神经 网 络 的 学 习 比 较 花 时 间 ， 
想 节 约 学 习 时 间 的 读者 可 以 巷 换 掉 这 里 的 numerical gradient(self, 
x, t), tH gradient(self, x, t)! 





45.2 mini-batch 的 实现 


神经 网 络 的 学 习 的 实现 使 用 的 是 前 面 介绍 过 的 mini-batch 学 习 。 所 谓 
mini-batch 和 学习， 就 是 从 训练 数据 中 随机 选择 一 部 分 数据 ( 称 为 mini-batch)， 
再 以 这 些 mini-batch 为 对 象 ， 使 用 梯度 法 更 新 参数 的 过 程 。 下 面 ， 我 们 就 以 
TwoLayerNet 类 为 对 象 ,使 用 MNIST 数 据 集 进 行 学 习 ( 源 代码 在 ch04/train_ 
neuralnet.py 中 )。 





import numpy as np 
from dataset.mnist import load mnist 
from two layer net import TwoLayerNet 


(x train, t train), (x test, t test) = \ load mnist(normalize-True, one hot 
laobel = True) 


train loss list = [] 


# 超 参 数 

iters num = 10000 

train size = x train.shape[0] 
batch size = 100 

learning rate = 0.1 
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network = TwoLayerNet(input size-784, hidden size=50, output size=10) 


for 1 in range(iters num): 
# 获取 mini-batch 
batch mask = np.random.choice(train size, batch size) 
x batch = x train[batch mask] 
t batch = t train[batch mask] 


# 计算 梯度 
grad = network.numerical gradient(x batch, t batch) 
# grad = network.gradient(x batch, t batch) 4 高 速 版 ! 


# 更 新 参数 
for key in ('Wl', 'bl', 'W2', 'b2'): 
network.params[key] -- learning rate * grad[key] 


# 记录 和 学习 过 程 
loss = network.loss(x batch, t batch) 
train loss list.append(loss) 


这 里 ，mini-batch 的 大 小 为 100， 需 要 每 次 从 60000 个 训练 数据 中 随机 
取出 100 个 数据 (图 像 数 据 和 正确 解 标 签 数据 )。 然 后 ， 对 这 个 包含 100 笔 数 
据 的 mini-batch 求 梯度 ， 使 用 随机 梯度 下 降 法 (SGD ) 更 新 参数 。 这 里 ， 梯 
度 法 的 更 新 次 数 ( 循 环 的 次 数 ) 为 10000。 每 更 新 一 次 ， 都 对 训练 数据 计算 损 
失 函 数 的 值 ， 并 把 该 值 添加 到 数组 中 。 用 图 像 来 表示 这 个 损失 函数 的 值 的 推 
移 ， 如 图 4-11 所 示 。 


400 
iteration iteration 


放大 显示 





4-11 损失 函数 的 推移 : 左 图 是 10000 次 循环 的 推移 ， 右 图 是 1000 次 循环 的 推移 
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观察 图 4-11， 可 以 发 现 随 厦 学 习 的 进行 ， 损失 函 数 的 值 在 不 断 减 小 。 这 
是 学 习 正 党 进行 的 信号 ， 表 示 神 经 网 络 的 权重 参数 在 逐渐 拟 合 数据 。 也 就 是 
说 ， 神 经 网 络 的 确 在 学 习 ! 通过 反复 地 向 它 浇灌 (输入) 数据 ， 神 经 网 络 正 
在 逐渐 癌 最 优 参 数 徘 近 。 








4.5.3 ”基于 测试 数据 的 评价 


根据 图 4-11 呈 现 的 结 采 ， 我 们 确认 了 通过 反复 学 习 可 以 使 损失 函数 的 值 
逐渐 减 小 这 一 事实 。 不 过 这 个 损失 函数 的 值 ， 严 格 地 讲 是 “对 训练 数据 的 某 
个 mini-patch 的 损失 函数 ”的 值 。 训 练 数 据 的 损失 函数 值 减 小 ， 虽 说 是 神经 
网 络 的 学 习 正 常 进行 的 一 个 信号 ,但 光 看 这 个 结果 还 不 能 说 明 该 神经 网 络 在 
其 他 数据 集 上 也 一 定 能 有 同等 程度 的 表现 。 

神经 网 络 的 学 习 中 ， 必 须 确 认 是 否 能 够 正确 识别 训练 数据 以 外 的 其 他 数 
据 ， 即 确认 是 否 会 发 生 过 拟 合 。 过 拟 合 是 指 ， 虽然 训练 数据 中 的 数字 图 像 能 
被 正确 辨别 ,但 是 不 在 训练 数据 中 的 数字 图 像 却 无 法 被 识别 的 现象 。 

神经 网 络 学 习 的 最 初 目 标 是 车 握 泛 化 能 力 ， 因 此 ， 要 评价 神经 网 络 的 泛 
化 能 力 ， 就 必须 使 用 不 包 合 在 训练 数据 中 的 数据 。 下 面 的 代码 在 进行 学 习 的 
过 程 中 ， 会 定期 地 对 训练 数据 和 测试 数据 记录 识别 精度 。 这 里 ， 每 经 过 一 个 
epoch， 我 们 都 会 记录 下 训练 数据 和 测试 数据 的 识别 精度 。 























epoch 是 一 个 单位 。 一 个 epoch 表示 学 习 中 所 有 训练 数据 均 被 使 用 过 
一 次 时 的 更 新 次 数 。 比 如 ， 对 于 10000 笔 训练 数据 ， 用 大 小 为 100 
笔 数 据 的 mini-batch 进行 学 习 时 ， 重 复 随机 梯度 下 降 法 100 次 ， 所 
有 的 训练 数据 就 都 被 “看 过 ”了 “。 此 时 ，100 次 就 是 一 个 epoch。 





为 了 正确 进行 评价 ， 我 们 来 稍稍 修改 一 下 前 面 的 代码 。 与 前 面 的 代码 不 
同 的 地 方 ， 我 们 用 粗 体 来 表示 。 





(D 实际 上 , 一 般 做 法 是 事先 将 所 有 训练 数据 随机 打 乱 ， 然 后 按 指定 的 批 次 大 小 ， 按 序 生成 mini-batch。 
这 样 每 个 mini-batch 均 有 一 个 索引 号 ， 比 如 此 例 可 以 是 0, 1,2,.…,99， 然 后 用 索引 号 可 以 壳 历 所 有 
的 mini-batcn。 通 历 一 次 所 有 数据 ， 就 称 为 一 个 epoch。 请 注意 ， 本 中 的 mini-batch 每 次 都 是 随机 
选择 的 ， 所 以 不 一 定 每 个 数据 都 会 被 看 到 。 一 一 译 者 注 
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import numpy as np 
from dataset.mnist import load mnist 
from two layer net import TwoLayerNet 


(x train, t train), (x test, t test) = \ load mnist(normalize-True, one hot 
laobel = True) 


train loss list - [] 

train acc list - [] 

test acc list - [] 

# 平均 每 个 epoch 的 重复 次 数 

iter per epoch = max(train size / batch size, 1) 


# 超 参数 

iters num = 10000 
batch size = 100 
learning rate = 0.1 


network = TwoLayerNet(input size-784, hidden size=50, output size=10) 


for 1 in range(iters num): 
# 获取 mini-batch 
batch mask = np.random.choice(train size, batch size) 
X batch = x train[batch mask] 
t batch = t train[batch mask] 


# 计算 梯度 
grad = network.numerical gradient(x batch, t batch) 
# grad = network.gradient(x batch, t batch) 4 高 速 版 ! 


# 更 新 参数 
for key in ('Wl', 'bl', 'W2', 'b2'): 
network.params[key] -= learning rate * grad[key] 


loss = network.loss(x batch, t batch) 
train loss list.append(loss) 
# 计算 每 个 epoch 的 识别 精度 
if i % iter_per_epoch == 
train_acc = network.accuracy(x_train, t_train) 
test_acc = network.accuracy(x_test, t_test) 
train_acc_list.append(train_acc) 
test acc list.append(test acc) 
print("train acc, test acc | " + str(train acc) * ", " + str(test acc)) 





在 上 面 的 例子 中 ， 每 经 过 一 个 epoch ， 就 对 所 有 的 训练 数据 和 测试 数据 
计算 识别 精度 ， 并 记录 结果 。 之 所 以 要 计算 每 一 个 epoch 的 识别 精度 ， 是 因 
为 如 果 在 for 语句 的 循环 中 一 直 计 算 识别 精度 ， 会 花费 太 多 时 间 。 并 且 , th 
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BOA WD BEAMS ZUR Ro se A al BE CH 92 ITT 8] EX BCE SETA Blt BE HE 
BERAT) 因此 ， 我 们 才 会 每 经 过 一 个 epoch 就 记录 一 次 训练 数据 的 识别 
精度 。 

把 从 上 面 的 代码 中 得 到 的 结果 用 图 表示 的 话 ， 如 图 4-12 所 示 。 





ro 
D 


Ps 
Q 
© 
H 
= 
Q 
Q 
© 


> 
心 


— train acc 
—-— test acc 


4-12 训练 数据 和 测试 数据 的 识别 精度 的 推移 \ 横 轴 的 单位 是 epoch ) 





图 4-12 中 ， 实 线 表示 训练 数据 的 识别 精度 ， 虚 线 表示 测试 数据 的 识别 精 
度 。 如 图 所 示 ， 随 着 epoch 的 前 进 ( 学 习 的 进行 )， 我 们 发 现 使 用 训练 数据 和 
测试 数据 评价 的 识别 精度 都 提高 了 , 并 且 , 这 两 个 识别 精度 基本 上 没有 差异 (两 
条 线 基本 重 玲 在 一 起 )。 因 此 ， 可 以 说 这 次 的 学 习 中 没有 发 生 过 拟 合 的 现象 。 











4.6 小结 


本 半 中 ， 我 们 介绍 了 神经 网 络 的 学 习 。 前 完 ， 为 了 能 顺利 进行 神经 网 络 
的 和 学习， 我 们 导入 了 损失 函数 这 个 指标 。 以 这 个 损失 函数 为 基准 ， 找 出 使 它 
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的 值 达到 最 小 的 权重 参数 ， 就 是 神经 网 络 学 习 的 目标 。 为 了 找到 尽 可 能 小 的 
损失 函数 值 ， 我 们 介绍 了 使 用 函数 斜率 的 梯度 法 。 


本 章 所 学 的 内 容 
机 器 学 习 中 使 用 的 数据 集 分 为 训练 数据 和 测试 数据 。 
神经 网 络 用 训练 数据 进行 学 习 ， 并 用 测试 数据 评价 学 习 到 的 模型 的 
泛 化 能 力 。 


神经 网 络 的 学 习 以 损失 函数 为 指标 ， 更 新 权重 参数 ， 以 使 损失 函数 
的 值 减 小 。 

利用 某 个 给 定 的 微小 值 的 差分 求 导 数 的 过 程 ， 称 为 数值 微分 。 

利用 数值 微分 ， 可 以 计算 权重 参数 的 梯度 。 

数值 微分 虽然 费时 间 ， 但 是 实现 起 来 很 简单 。 下 一 章 中 要 实现 的 稍 
微 复杂 一 些 的 误差 反 向 传播 法 可 以 高 速 地 计算 梯度 。 





图 灵 社 区 会 员 zengchang94(zengchang.elec@gmail.com) 专 享 尊重 


第 5 章 
误差 反 辐 传播 法 


上 一 章 中 ， 我 们 介绍 了 神经 网 络 的 学 习 ， 并 通过 数值 微分 计算 了 神经 网 
络 的 权重 参数 的 梯度 (严格 来 说 ， 是 损失 函数 关于 权重 参数 的 梯度 )。 数 信 微 
分 虽然 简单 ， 也 容易 实现 ， 但 缺点 是 计算 上 比较 费时 间 。 本 章 我 们 将 学 习 一 
个 能 够 高 效 计算 权重 参数 的 梯度 的 方法 一 一 误差 反问 传播 法 。 

要 正确 理解 误差 反问 传播 法 , 我 个 人 认为 有 两 种 方法 : 一 种 是 基于 数学 式 ; 
另 一 种 是 基于 计算 图 (computational graph). 前 者 是 比较 稼 见 的 方法 ， 机 从 
学 习 相 关 的 图 书 中 多 数 都 是 以 数学 式 为 中 心 展开 论述 的 。 因 为 这 种 方法 严密 
且 简 洁 ， 所 以 确实 非常 合理 ， 但 如 果 一 上 来 就 围绕 数学 式 进 行 探讨 ， 会 忽略 
一 些 根本 的 东西 ， 止 步 于 式 子 的 罗列 。 因 此 ， 本 章 希 望 大 家 通过 计算 图 ， 育 
观 地 理解 误差 反 向 传播 法 。 然 后 ， 再 结合 实际 的 代码 加 深 理 解 ， 相 信 大 家 一 
定 会 有 种 “原来 如 此 ! ”的 感觉 。 

此 外 ,通过 计算 图 来 理解 误差 反问 传播 法 这 个 想法 ， 参考 了 Andrej 
Karpathy 的 博客 ”和 他 与 Fei-Fei Li 教授 负责 的 斯 坦 福 大 学 的 深度 学 习 课程 
CS231n P, 




















5.1 计算 图 


计算 图 将 计算 过 程 用 图 形 表示 出 来 。 这 里 说 的 图 形 是 数据 结构 图 ， 通 
He UNDA eos (连接 节 点 的 直线 称 为 “ 边 ”) 为 了 让 大 家 见 悉 计算 图 ， 
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本 市 先 用 计算 图 解 一 些 简 单 的 问题 。 从 这 些 人 简单 的 问题 开始 ， 了 逐步 深入 ， 最 
终 抵达 误差 反 回 传播 法 。 





5.1.1 用 计算 图 求解 

现在 ， 我 们 符 试 用 计算 图 解 简 单 的 问题 。 下 面 我 们 要 看 的 几 个 问题 都 是 
用 心算 就 能 解 开 的 简单 问题 ， 这 里 的 目的 只 是 通过 它们 让 大 家 兄 悉 计算 网 。 
掌握 了 计算 图 的 使 用 方法 之 后 ， 在 后 面 即 将 看 到 的 复杂 计算 中 它 将 发 挥 巨大 
威力 ， 所 以 本 市 请 一 定 学 会 计算 网 的 使 用 方法 。 











问题 1: AKBp 3 f 24-100 H5 —/ RISE, IPERBUE 1096, TET 
算 文 付 金额 。 


计算 图 通过 节点 和 箭头 表示 计算 过 程 。 节 点 用 OO 〇 表示，O 〇 中 是 计算 的 内 
容 。 将 计算 的 中 间 结 果 写 在 箭头 的 上 方 ， 表 示 各 个 节点 的 计算 结果 从 左 向 右 
传递 。 用 计算 图 解 问 题 1， 求 解 过 程 如 图 5-1 所 示 。 














5-1 基于 计算 图 求解 的 问题 1 的 答案 


如 图 5-1 所 示 ， 开始 时 ,苹果 的 100 日 元 流 到 “x 2” 节 点 ， 变 成 200 日 元 ， 
然后 被 传递 给 下 一 个 节点 。 接 着 ,这 个 200 日 元 流向 “x 1.1” 节 点 ， 变 成 220 
日 元 。 因 此 ， 从 这 个 计算 图 的 结果 可 知 ， 答 案 为 220 日 元 。 

虽然 图 5-1 中 把 “x 2”“x 11" 等 作为 一 个 运算 整体 用 O 〇 括 起 来 了 ， 不 过 
只 用 〇 表示 乘法 运算 “x ”也 是 可 行 的 。 此 时 ， 如 图 5-2 所 示 ， 可 以 将 “2” 和 
“LL 分别 作为 变量 “苹果 的 个 数 ” 和 “消费 税 ” 标 在 〇 外 面 。 
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苹果 的 个 数 





5-2 ”基于 计算 图 求解 的 问题 1 的 答案 :“ 苹果 的 个 数 和 “消费税 作为 变量 标 在 O 外 面 


FEA Fil. 


问题 2: 太 即 在 超市 买 了 2 个 革 果 、3 个 橘子 。 其 中 ， 苹 果 每 个 100 日 元 ， 
橘子 每 个 150 日 元 。 消 费 税 是 10 甸 ， 请 计算 支付 金额 。 





同 问题 1， 我 们 用 计算 图 来 解 问题 2， 求 解 过 程 如 图 5-3 所 示 。 


SERRA PRL 


橘子 的 个 数 


消费 税 





5-3 ”基于 计算 图 求解 的 问题 2 的 答案 


这 个 问题 中 新 增 了 加 法 节点 “十 "， 用 来 合计 苹 末 和 橘子 的 金额 。 构 建 了 
计算 图 后 ， 从 左 向 右 进行 计算 。 就 像 电路 中 的 电流 流动 一 样 ， 计 算 结 果 从 左 
向 右 传 递 。 到 达 最 右边 的 计算 结果 后 ， 计 算 过 程 就 结束 了 。 从 图 5-3 中 可 知 ， 
问题 2 的 答案 为 715 日 元 。 
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综 上 ， 用 计算 图 解 题 的 情况 下 ， 需 要 按 如 下 流程 进行 。 


1. 构 建 计算 图 。 
2. 在 计算 图 上 ， 从 左 向 右 进 行 计 算 。 





这 里 的 第 2 步 “ 从 左 向 右 进行 计算 ”是 一 种 正方 向 上 的 传播 ， 简 称 为 正 
向 传播 (forward propagation)。 正 回 传播 是 从 计算 图 出 发 点 到 结束 点 的 传播 。 
既然 有 正 回 传播 这 个 名 称 , 当然 也 可 以 考虑 反 回 (从 图 上 看 的 话 , 就 是 从 右 向 左 ) 
的 传播 。 实 际 上 ， 这 种 传播 称 为 反 向 传播 (backward propagation)。 反 回 传 
播 将 在 接 下 来 的 导数 计算 中 发 挥 重 要 作用 。 




















5.1.2 ”局 部 计算 

计算 图 的 特征 是 可 以 通过 传递 “局 部 计算 ”获得 最 终结 果 。“ 局 部 ”这 个 
词 的 意思 是 “与 自己 相关 的 某 个 小 范围 "。 局 部 计算 是 指 , 无 论 全 局 发 生 了 什么 ， 
都 能 只 根据 与 自己 相关 的 信息 输出 接 下 来 的 结果 。 

我 们 用 一 个 具体 的 例子 来 说 明 局 部 计算 。 比 如 ， 在 超市 买 了 2 个 苹果 和 
其 他 很 多 东西 。 此 时 ， 可 以 画 出 如 图 5-4 所 示 的 计算 图 。 

















其 他 很 多 东西 
^ @ 


-7 


| ~ 4620 A 
- o 2 * Xx oe 
ERR ; ^ 


de 100 ; 


消费 税 





5-4 买 了 2 个 苹果 和 其 他 很 多 东西 的 例子 


如 图 5-4 所 示 , 假设 (经 过 复杂 的 计算 ) 购 买 的 其 他 很 多 东西 总 共 花 费 
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4000 日 元 。 这 里 的 重点 是 ， 各 个 节点 处 的 计算 都 是 局 部 计算 。 这 意味 着 ， 例 
如 苹果 和 其 他 很 多 东西 的 求 和 运算 (4000 + 200 一 4200) 并 不 关心 4000 这 个 
数字 是 如 何 计 算 而 来 的 ， 只 要 把 两 个 数字 相 加 就 可 以 了 。 换 言 之 ， 各 个 节点 
处 只 需 进 行 与 自己 有 关 的 计算 (在 这 个 例子 中 是 对 输入 的 两 个 数字 进行 加 法 
运算 )， 不 用 考虑 全 局 。 

综 上 ， 计 算 图 可 以 集中 精力 于 局 部 计算 。 无 论 全 局 的 计算 有 多 么 复杂 ， 
各 个 步骤 所 要 做 的 就 是 对 象 节点 的 局 部 计算 。 虽 然 局 部 计算 非常 简单 ， 但 是 
通过 传递 它 的 计算 结果 ， 可 以 获得 全 局 的 复杂 计算 的 结果 。 


` 









































比如 ， 组 装 汽车 是 一 个 复杂 的 工作 ， 通 常 需 要 进行 “流水 线 ” 作业。 
每 个 工人 (机 器 ) 所 承担 的 都 是 被 简化 了 的 工作 ， 这 个 工作 的 成 果 会 
传递 给 下 一 个 工人 ， 直 至 汽车 组 装 完成 。 计 算 图 将 复杂 的 计算 分 割 
成 简单 的 局 部 计算 ， 和 流水 线 作 业 一 样 ， 将 局 部 计算 的 结果 传递 给 
下 一 个 节点 。 在 将 复杂 的 计算 分 解 成 简单 的 计算 这 一 点 上 与 汽车 的 
组 狂 有 相似 之 处 。 





5.1.3 ”为 何 用 计算 图 解 题 

前 面 我 们 用 计算 图 解答 了 两 个 问题 ， 那 么 计算 图 到 底 有 什么 优点 呢 ? 一 
个 优点 就 在 于 前 面 所 说 的 局 部 计算 。 无 论 全 局 是 多 么 复杂 的 计算 ， 都 可 以 通 
过 局 部 计算 使 各 个 节点 致力 于 简单 的 计算 ， 从 而 简化 问题 。 另 一 个 优点 是 ， 
利用 计算 图 可 以 将 中 间 的 计算 结果 全 部 保存 起 来 (比如 ， 计算 进行 到 2 个 苹 
果 时 的 金额 是 200 日 元 、 加 上 消费 税 之 前 的 金额 650 日 元 等 ),。 但 是 只 有 这 些 
理由 可 能 还 无 法 令 人 信服 。 实 际 上 ,使 用 计算 图 最 大 的 原因 是 ， 可 以 通过 反 
向 传播 高 效 计算 导数 。 

在 介绍 计算 图 的 反问 传播 时 ， 我们 青 来 思考 一 下 问题 1。 问 题 1 中 ,我 
们 计算 了 购买 2 个 苹果 时 加 上 消费 税 最 终 需 要 支付 的 金额 。 这 里 ,假设 我 们 
想 知道 苹果 价格 的 上 涨 会 在 多 大 程度 上 影响 最 终 的 支付 金额 ， 即 求 “ 支 付 金 
额 关 于 苹果 的 价格 的 导数 ”。 设 苹果 的 价格 为 z， 支 付 金额 为 L， 则 相当 于 求 
552。 这 个 导数 的 值 表示 当 蔷 果 的 价格 稍微 上 涨 时 ， 支 付 金额 会 增加 多 少 。 
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如 前 所 述 ,“ 支 付 金额 天 于 蔷 果 的 价格 的 导数 ”的 值 可 以 通过 计算 图 的 
有 反问 传播 求 出 来 。 先 来 看 一 下 结果 ， 如 图 5-5 所 示 ， 可 以 通过 计算 图 的 反问 
传播 求 导数 (关于 如 何 进 行 反 向 传播 ， 接 下 来 蕊 上 会 介绍 )。 











200 


100 \ 220 d 
e-— 一 一体 
29 1 


1.1 ` | 


" " 2 
苹果 的 个 数 





5-5 基于 反 回 传播 的 导数 的 传递 


如 图 5-5 所 示 ， 反 加 传播 使 用 与 正方 向 相反 的 箭头 ( 粗 线 ) 表 示 。 反 回 传 
播 传 递 “ 局 部 导数 "， 将 导数 的 值 写 在 箭头 的 下 方 。 在 这 个 例子 中 ， 反 回 传 
播 从 右 向 左 传递 导数 的 值 (1 一 1.1 一 2.2)。 从 这 个 结果 中 可 知 ,“ 支 付 金 额 
关于 乎 末 的 价格 的 导数 ”的 值 是 2.2。 这 意味 者 ， 如 果 平 果 的 价格 上 涨 1 日 元 ， 
最 终 的 文 付 金额 会 增加 2.2 日 元 (严格 地 讲 ， 如 果 平 采 的 价格 增加 某 个 微小 值 ， 
则 最 终 的 支付 金额 将 增加 那个 微小 值 的 2.2 倍 )。 

这 里 只 求 了 关于 邯 果 的 价格 的 导数 ,不 过 " 文 付 金额 关于 消费 税 的 导 
数 ”“ 文 付 金额 天 于 平 果 的 个 数 的 导数 ”等 也 都 可 以 用 同样 的 方式 算出 来 。 并 
且 ， 计 算 中 途 求 得 的 导数 的 结果 (中 间 传 递 的 导数 ) 可 以 被 共 童 ， 从 而 可 以 
高 效 地 计算 多 个 导数 。 综 上 ， 计算 图 的 优点 是 ， 可 以 通过 正 癌 传播 和 反 疝 传 
播 高 效 地 计算 各 个 变量 的 导数 值 。 














$5.2” 链 式 法 则 


前 面 介绍 的 计算 图 的 正 癌 传播 将 计算 结 末 正 向 (从 左 到 右 ) 传 递 ， 其 计 
算 过 程 是 我 们 日 党 接触 的 计算 过 程 ， 所 以 感 党 上 可 能 比较 上 自然 。 而 反 回 传播 
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将 局 部 导数 疝 正 方向 的 反方 同 OSM Ar BZ) Pe, 一 开始 可 能 会 让 人 感到 困惑 。 
传递 这 个 局 部 导数 的 原理 ， 是 基于 链 式 法 则 (chain rule) 的 。 本 市 将 介绍 链 
式 法 则 ， 并 阐明 它 是 如 何 对 应 计算 图 上 的 反问 传播 的 。 








5.2.1 计算 图 的 反 回 传播 


话 不 多 说 ， 让 我 们 先 来 看 一 个 使 用 计算 图 的 反 向 传播 的 例子 。 假 设 存在 
y 三 f(z) 的 计算 ,这 个 计算 的 反问 传播 如 图 5-6 所 示 。 





图 5-6 计算 图 的 反 回 传播 : 沿 着 与 正方 向 相反 的 方向 ， 乘 上 局 部 导数 








如 图 所 示 ,， 反 辐 传 播 的 计算 顺序 是 ,将 信号 五 乘 以 节点 的 局 部 导数 
( 弛 )， 然 后 将 结果 传递 给 下 一 个 节点 。 这 里 所 说 的 局 部 导数 是 指正 向 传播 
中 y= f(z) 的 导数 ， 也 就 是 y 关 于 xz 的 导数 ( 宾 )。 比 如 ,假设 y= f(x) x, 
则 局 部 导数 为 SY = 2z。 把 这 个 局 部 导数 乘 以 上 游 传 过 来 的 值 (ASB PY E), 
然后 传递 给 前 面 的 节点 。 
这 就 是 反问 传播 的 计算 顺序 。 通 过 这 样 的 计算 ， 可 以 高 效 地 求 出 导数 的 
AA 
j 

















值 ， 这 是 反 向 传播 的 要 点 。 那 么 这 是 如 何 实 现 的 呢 ? 我 们 可 以 从 链 式 法 则 的 
原理 进行 解释 。 下 面 我 们 就 来 介绍 链 式 法 则 。 





5.2.2 ”什么 是 链 式 法 则 


介绍 链 式 法 则 时 ， 我 们 需要 先 从 复合 函数 说 起 。 复 全 函数 是 由 多 个 函数 
构成 的 函数 。 比 如 ，z= (x + y) 是 由 式 (5.1) 所 示 的 两 个 式 子 构成 的 。 








(5.1) 
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链 式 法 则 是 关于 复合 函数 的 导数 的 性 质 ， 定 义 如 下 。 


如 果菜 个 函数 由 复合 函数 表示 ， 则 该 复合 函数 的 导数 可 以 用 构成 复 
EDEMA BHA EH RARE. 





这 就 是 链 式 法 则 的 原理 ， 乍 一 看 可 能 比较 难 理 解 ， 但 实际 上 它 是 一 个 
非常 简单 的 性 质 。 以 式 (5.1) 为 例 ， 党 (z 关 于 xz 的 导数 ) 可 以 用 学 (z 关 于 t 
的 导数 ) 和 尝 (t 关 于 xz 的 导数 ) 的 乘积 表示 。 用 数学 式 表示 的 话 ， 可 以 写成 
式 (5.2)。 








dz _ dz ðt 
Ox OtOx (5.2) 


式 (5.2) 中 的 9t 正 好 可 以 像 下面 这 样 “ 互 相抵 消 ”， 所 以 记 起 来 很 简单 。 
Oz _ Oz ot 
Or st Ax 
现在 我 们 使 用 链 式 法 则 ， 试 着 求 式 (5.2) 的 导数 $2, A, REER 
式 (5.1) 中 的 局 部 导数 ( 偏 导数 )。 





Oz 
a (5.3) 
at _ | 
On 


AX (5.3) Bias, ZEFA, Sz 等 于 1。 这 是 基于 导数 公式 的 解析 解 。 
然后 ， 最 后 要 计算 的 绽 可 由 式 (5.3) 求 得 的 导数 的 乘积 计算 出 来 。 








OZ ozot 
ar spa. sy) (5.4) 
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5.2.3 ” 链 式 法 则 和 计算 图 


现在 我 们 尝试 将 式 (5.4) 的 链 式 法 则 的 计算 用 计算 图 表示 出 来 。 如 采用 
“**2” 节 点 表示 平方 运算 的 话 ， 则 计算 图 如 图 5-7 所 示 。 











图 5-7 式 (5.4) 的 计算 图 : 沿 着 与 正方 向 相反 的 方向 ， 乘 上 局 部 导数 后 传递 


如 图 所 示 ， 计 算 图 的 反 回 传播 从 右 到 左 传播 信号 。 反 回 传 播 的 计算 顺序 
是 ， 先 将 节点 的 输入 信号 乘 以 节点 的 局 部 导数 ( 偶 导 数 )， 然 后 再 传递 给 下 一 
个 节点 。 比 如 , 反 向 传播 时 ,“*x2” 节点 的 输入 是 如 ,将 其 乘 以 局 部 导数 22 (IR 
为 正 向 传播 时 输入 是 +、 输出 是 z， 所 以 这 个 节点 的 局 部 导数 是 22), RATE 
递 给 下 一 个 节点 。 另 外 ， 图 5-7 中 反 向 传播 最 开始 的 信号 学 在 前 面 的 数学 
式 中 没有 出 现 ， 这 是 因为 Z = 1， 所 以 在 刚才 的 式 子 中 被 省 略 了 。 

图 5-7 中 需要 注意 的 是 最 左边 的 反问 传播 的 结果 。 根据 链 式 法 则 ， 
Oz Oz Ot — Əz Ot — Oe 成 立 ， 对 应 “z 关 于 x 的 导数 ”"。 也 就 是 说 ， 反 向 传播 
是 基于 链 式 法 则 的 。 

把 式 (5.3) 的 结果 代入 到 图 5-7 中 ,结果 如 图 5-8 所 示 , 22 的 结果 为 
2(x + y)o 
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图 5-8 ”根据 计算 图 的 反 向 传播 的 结果 ， 中 等 于 2(z 十 y) 
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上 一 节 介绍 了 计算 图 的 反 向 传播 是 基于 链 式 法 则 成 立 的 。 本 节 将 以 “+ 
和 “x” 等 运算 为 例 ， 介 绍 反 向 传播 的 结构 。 


5.3.1. ”加 法 斑点 的 反 回 传播 


首先 来 考虑 加 法 节点 的 反 回 传播 。 这 里 以 z=Z 十 为 对 象 ， 观 察 它 的 
有 反问 传播 。z = x 十 y 的 导数 可 由 下 式 ( 解 析 性 地 ) 计 算出 来 。 
OF -- 
um 
Oz — 
ay = 








(5.5) 





Msk (5.5) ras, 52 WIS 同时 都 等 于 1。 因 此 ， 用 计算 图 表示 的 话 ， 如 
图 5-9 所 示 。 

在 图 5-9 中 ， 反 向 传播 将 从 上 游 传 过 来 的 导数 (本 例 中 是 Se) FELL, SA 
后 传 回 下 游 。 也 就 是 说 ， 因 为 加 法 节点 的 反 向 传播 只 乘 以 1， 所 以 输入 的 值 
会 原封 不 动 地 流向 下 一 个 节点 。 
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25-9 ”加 法 节点 的 反 向 传播 : 左 图 是 正 向 传播 , 右 图 是 反 辐 传播 。 如 右 图 的 反 回 传播 所 示 ， 
加 法 节点 的 反问 传播 将 上 游 的 值 原封 不 动 地 输出 到 下 游 


另外 ， 本 例 中 把 从 上 游 传 过 来 的 导数 的 值 设 为 呈 。 这 是 因为 ， 如 图 5-10 
所 示 ， 我 们 假定 了 一 个 最 终 输出 值 为 的 大 型 计算 图 。z = e +y 的 计算 位 于 
这 个 大 型 计算 图 的 某 个 地 方 ， 从 上 游 会 传 来 22 的 值 ， 并 向 下 游 传递 22 和 


aL 
Oy? 





图 5-10 ”加 法 节点 存在 于 某 个 最 后 输出 的 计算 的 一 部 分 中 。 反 癌 传播 时 ， 从 最 右边 的 输 
出 出 友 ， 局 部 导数 从 节点 同 节点 反方 同 传播 
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现在 来 看 一 个 加 法 的 反 向 传播 的 具体 例子 。 假 设 有 “10 + 5=15” 这 一 计 
算 ， 反 向 传播 时 ， 从 上 游 会 传 来 值 1.3。 用 计算 图 表示 的 话 ， 如 图 5-11 所 示 。 








图 5-11 加 法 节点 的 反 向 传播 的 具体 例子 


因为 加 法 厄 点 的 反问 传播 只 是 将 输入 信号 输出 到 下 一 个 市 上 ， 所 以 如 图 
5-11 所 示 ， 反 问 传 播 将 1.3 同 下 一 个 市 点 传递 。 


5.3.2. FAT MARES 


接 下 来 ， 我 们 看 一 下 乘法 节点 的 反 回 传播 。 这 里 我 们 考虑 > = zy。 这 个 
式 子 的 导数 用 式 (5.6) 表 示 。 


Oe _ 
05 ” (me 

5.6 
Oy — 


根据 式 (5.6)， 可 以 像 图 5-12 那 样 画 计算 图 。 

乘法 的 反 向 传播 会 将 上 游 的 值 乘 以 正 向 传播 时 的 输入 信和 号 的 “翻转 值 ” 
后 传递 给 下 游 。 翻 转 值 表示 一 种 翻转 关系 ， 如 图 5-12 所 示 ， 正 问 传 播 时 信号 
是 x 的话 ， 反问 传播 时 则 是 y;， 正 同 传 播 时 信号 是 y 的 话 ， 反 问 传 播 时 则 是 x。 

现在 我 们 来 看 一 个 具体 的 例子 。 比 如 ,假设 有 “10 x 5 = 50” 这 一 计算 ， 
反问 传播 时 ， 从 上 游 会 传 来 值 1.3。 用 计算 图 表示 的 话 ， 如 图 5-13 所 示 。 
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图 5-13 乘法 节点 的 反 向 传播 的 具体 例子 


因为 乘法 的 反问 传播 会 乘 以 输入 信号 的 翻转 值 ， 所 以 各 自 可 按 1.3 x 5— 
6.5、1.3 x 10 = 13 计 算 。 男 外 ， 加 法 的 反 疝 传播 只 是 将 上 游 的 值 传 给 下 游 ， 
并 不 需要 正 向 传播 的 输入 信和 号。 但 是 ， 乘 法 的 反 向 传播 需要 正 向 传播 时 的 输 
入 信号 值 。 因 此 ， 实 现 乘 法 节点 的 反 向 传播 时 ， 要 保存 正 向 传播 的 输入 信和 号。 











53.3 ”苹果 的 例子 

再 来 思考 一 下 本 章 最 开始 举 的 购买 苹果 的 例子 (2 个 苹果 和 消费 税 )。 这 
里 要 解 的 问题 是 苹果 的 价格 、 苹 果 的 个 数 、 消 费 税 这 3 个 变量 各 自如 何 影响 
最 终 支付 的 金额 。 这 个 问题 相当 于 求 “ 支 付 金额 关于 苹果 的 价格 的 导数 ”“ 支 
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付 金 额 关 于 平 果 的 个 数 的 导数 ”“ 文 付 金 额 基 于 消费 税 的 导数 "。 用 计算 图 的 
反 回 传播 来 解 的 话 ， 求 解 过 程 如 图 5-14 所 示 。 








图 5-14 ”购买 苹果 的 反 向 传播 的 例子 


如 前 所 述 , 乘法 节点 的 反 回 传播 会 将 输入 信号 翻转 后 传 给 下 游 。 从 图 5-14 
的 结果 可 知 ， 革 果 的 价格 的 导数 是 2.2， 蔷 果 的 个 数 的 导数 是 110， 消 费 税 的 
导数 是 200。 这 可 以 解释 为 ， 如 有 果 消 费 税 和 苹 采 的 价格 增加 相同 的 值 ， 则 消 
n 4 对 最 终 价 格 产 生 200 倍 大 小 的 影响 , 平 采 的 价格 将 产生 2.2 倍 大 小 的 影 啊 。 
， 因 为 这 个 例子 中 消费 税 和 苹果 的 价格 的 量 纲 不 同 ， 所 以 才 形 成 了 这 样 
HZ acum 17 100%, HARI UTA HY 12i 1 H 0). 
BUTEA ART, TAI AOR IA HR B "WJ3SCOEZR AP” ES Be Te Ped o 
在 图 5-15 中 的 方块 中 填 和 信 数字， 求 各 个 变量 的 导数 (答案 在 硅 干 页 后 )。 

















图 5-15 ”购买 苹果 和 村 子 的 反 向 传播 的 例子 : 在 方块 中 填 入 数字 ， 完 成 反 回 传播 
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5.4 fal BRASH 


7k 3H Python K Jil Bit ri A) SR eR AY BF, 我们 把 要 实现 
的 计算 图 的 乘法 节点 称 为 “乘法 层 "(MuLLayer)， 加 法 节点 称 为 “加 法 层 ” 


( AddLayer ), 











下 一 市 ,我 们 将 把 构建 神经 网 络 的 “ 层 ” 实现 为 一 个 类 。 这 里 所 
WEBS "ER" 是 神经 网 络 中 功能 的 单位 。 比 如 ， 负 责 sigmoid 函数 的 
Sigmoid、 负 责 窍 阵 乘积 的 Affine 等 ， 都 以 层 为 单位 进行 实现 。 因 此 ， 
这 里 也 以 层 为 单位 来 实现 乘法 节点 和 加 法 节点 。 





5.4.1 乘法 层 的 实现 

层 的 实现 中 有 两 个 共通 的 方法 (接口 )forward() 和 backward()。forward() 
对 应 正 向 传播 ，backward() 对 应 反 向 传播 。 

现在 来 实现 乘法 层 。 乘 法 层 作 为 MutLayer 类 ， 其 实现 过 程 如 下 所 示 ( 源 
代码 在 ch05/layer_naive.py 中 )。 











class MulLayer: 
def init (self): 
self.x - None 
self.y - None 


de 


—h 


forward(self, x, y): 
self.x = x 
self.y = y 
out = x * y 


return out 


de 


—h 


backward(self, dout): 
dx = dout * self.y # 翻转 x 和 y 
dy = dout * self.x 














return dx, dy 
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int _() 中 会 初始 化 实例 变量 x 和 y, 它们 用 于 保存 正 回 传 播 时 的 输入 值 。 
forward() 接收 x 和 y 两 个 参数 ， 将 它们 相 乘 后 输出 。backward() 将 从 上 游 传 
来 的 导数 (dout) 乘 以 正 癌 传播 的 翻转 值 ， 人 然后 传 给 下 游 。 
上 面 就 是 MutlLayer 的 实现 。 现 在 我 们 使 用 MulLayer 实 现 前 面 的 购买 苹果 
的 例子 (2 个 苹果 和 消费 税 )。 上 一 节 中 我 们 使 用 计算 图 的 正 癌 传播 和 反 癌 传播 ， 
像 图 5-16 这 样 进 行 了 计算 。 








图 5-16 ”购买 2 个 苹果 





使 用 这 个 乘法 层 的 话 ， 图 5-16 的 正 问 传 播 可 以 像 下 面 这 样 实现 ( 源 代码 


在 ch05/buy apple.py 中 )。 


apple = 100 
apple num = 2 
tax = 1.1 


# layer 
mul apple layer = MulLayer() 
mul tax layer = MulLayer() 


# forward 
apple price = mul apple layer.forward(apple, apple num) 


price = mul tax layer.forward(apple price, tax) 


print(price) # 220 





此 外 ， 关 于 各 个 变量 的 导数 可 由 backward() 求 出 。 
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# backward 
dprice = 1 
dapple price, dtax 
dapple, dapple num 


mul_tax_layer.backward(dprice) 
mul apple layer.backward(dapple price) 


print(dapple, dapple num, dtax) # 2.2 110 200 


这 里 ， 调 用 backward() 的 顺序 与 调用 forward() 的 顺序 相反 。 此 外 ， 要 注 
意 backward() 的 参数 中 需要 输入 “关于 正 问 传 播 时 的 输出 变量 的 导数 ”。 比 如 ， 
muL_appte_lLayer 乘 法 层 在 正 回 传 播 时 会 输出 appte_price， 在 反 回 传播 时 ， 则 
会 将 apple_price 的 导数 dappte_price 设 为 参数 。 另 外 ， 这 个 程序 的 运行 结 
和 图 5-16 是 一 致 的 。 








5.4.2 ”加 法 层 的 实现 
接 下 来 ， 我 们 实现 加 法 节点 的 加 法 层 ， 如 下 所 示 。 
class AddLayer: 
def init (self): 
pass 
def forward(self, x, y): 
out = x+y 


return out 


de 


—h 


backward(self, dout): 
dx = dout * 1 
dy = dout * 1 
return dx, dy 


加 法 层 不 需要 特意 进行 初始 化 ,所 以 _init O 中 什么 也 不 运行 (pass 
语句 表示 “什么 也 不 运行 ”)。 加 法 层 的 forward() 接收 x 和 y 两 个 参数 ， 将 它 
们 相 加 后 输出 。backward() 将 上 游 传 来 的 导数 (dout) 原 封 不 动 地 传递 给 下 游 。 

现在 ， 我 们 使 用 加 法 层 和 乘法 层 ， 实 现 网 5-17 所 示 的 购买 2 个 苹果 和 3 
个 橘子 的 例子 。 
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2 

苹果 的 个 数 \ 
110, 
à ' 


00 


a x 
橘子 的 个 数 | 
165 


消费 税 





5-17 购买 2 个 芋 果 和 3 个 橘子 





用 Python 实现 图 5-17 的 计算 图 的 过 程 如 下 所 示 ( 源 代码 在 cho5/buy _ 


apple orange.py FH ), 


apple - 100 
apple num - 2 
orange - 150 
orange num - 3 
tax = 1.1 


# layer 

mul apple layer = MulLayer() 

mul orange layer = MulLayer() 

add apple orange layer = AddLayer() 
mul tax layer = MulLayer() 


# forward 

apple price = mul apple layer.forward(apple, apple num) #(1) 

orange price = mul orange layer.forward(orange, orange num) #(2) 

all price - add apple orange layer.forward(apple price, orange price) £(3) 
price = mul tax layer.forward(all price, tax) #(4) 


# backward 

dprice = 1 

dall price, dtax = mul tax layer.backward(dprice) #(4) 

dapple price, dorange price = add apple orange layer.backward(dall price) #(3) 
dorange, dorange num = mul orange layer.backward(dorange price) #(2) 
dapple, dapple num = mul apple layer.backward(dapple price) #(1) 


print(price) # 715 
print(dapple num, dapple, dorange, dorange num, dtax) # 110 2.2 3.3 165 650 
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这 个 实现 稍微 有 一 点 长 ， 但 是 每 一 条 命令 神 很 简单 。 首 先 ， 生 成 必要 的 
层 ， 以 合适 的 顺序 调用 正 向 传播 的 forward() 方 法 。 然 后 ， 用 与 正 向 传播 相 
反 的 顺序 调用 反 向 传播 的 backward() 方法， 就 可 以 求 出 想 要 的 导数 。 

纤 上 ， 计 算 图 中 层 的 实现 (这 里 是 加 法 层 和 乘法 层 ) 非 常 简单 ， 使 用 这 
些 层 可 以 进行 复杂 的 导数 计算 。 下 面 ， 我 们 来 实现 神经 网 络 中 使 用 的 层 。 














S.$ 激活 函数 层 的 实现 


现在 ， 我 们 将 计算 图 的 思路 应 用 到 神经 网 络 中 。 这 里 ， 我 们 把 构成 神经 
网 络 的 层 实现 为 一 个 类 。 先 来 实现 激活 函数 的 ReLU 层 和 Sigmoid 层 。 


5.5.14 ReLUE 
TG PRA ReLU (Rectified Linear Unit) H Fst (5.7) 表示。 


(x D) 
g= (5.7) 
O0 (# <0) 


通过 式 (5.7)， 可 以 求 出 y 关 于 z 的 导数 ， 如 式 (5.8) 所 示 。 
1 0 
oY ie (5.8) 


TEXX (5.8) P, ARE ISI RIN TA cA O, WB f RE EY 
值 原封 不 动 地 传 给 下 游 。 反 过 来 ， 如 果 正 向 传播 时 的 x 小 于 等 于 0， 则 反 向 
传播 中 传 给 下 游 的 信号 将 停 在 此 处 。 用 计算 图 表示 的 话 ， 如 图 5-18 所 示 。 

现在 我 们 来 实现 ReLu 层 。 在 神经 网 络 的 层 的 实现 中 ， 一 般 假 定 forward() 
和 backward() 的 参数 是 NumPy 数 组 。 男 外 ， 实 现 ReLU 层 的 源 代码 在 common/ 


layers.py 中。 
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5-18 ReLU 层 的 计算 图 


class Relu: 
def init (self): 
self.mask = None 


def forward(self, x): 
self.mask = (x <= 0) 
out = x.copy() 
out[self.mask] = 0 


return out 
def backward(self, dout): 
dout[self.mask] = 0 


dx = dout 


return dx 





Relu 类 有 实例 变量 mask。 这 个 变量 mask 是 由 True/False 构 成 的 NumPy 数 
组 ， 它 会 把 正 向 传播 时 的 输入 x 的 元 素 中 小 于 等 于 0 的 地 方 保存 为 True， 其 
他 地 方 ( 大 于 0 的 元 素 ) 保 存 为 Fatse。 如 下 例 所 示 ，mask 变 量 保存 了 由 True/ 
False 构 成 的 NumPy 数 组 。 





>>> x = np.array( [[1.0, -0.5], [-2.0, 3.0]] ) 
>>> print(x) 
[] d =<0.3] 
[eee 3: Jl 
>>> mask = (x <= 0) 
>>> print (mask) 
[[False True] 
[ True False] ] 
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如 图 5-18 所 示 , 如 果 正 向 传播 时 的 输入 值 小 于 等 于 0, 则 反 辐 传播 的 值 为 0。 
因此 ， 反 回 传 播 中 会 使 用 正 向 传播 时 保存 的 mask， 将 从 上 游 传 来 的 dout 的 
mask 中 的 元 系 为 True 的 地 方 设 为 0。 


` 


5.5.2 Sigmoid Æ 


接 下 来 ， 我 们 来 实现 sigmoid KZ. sigmoid PEZ HH st (5.9) zm, 





ReLU 层 的 作用 就 像 电路 中 的 开关 一 样 。 正 向 传播 时 ， 有 电流 通过 
的 话 ， 就 将 开关 设 为 ON; 疫 有 电流 通过 的 话 ， 就 将 开关 设 为 OFF。 
反 向 传播 时 ， 开 关 为 ON 的话 ， 电 流 会 直接 通过 ; 开关 为 OFF 的 话 ， 
则 不 会 有 电流 通过 。 





1 


= EE (5.9) 


y 





用 计算 图 表示 式 (5.9) 的 话 ， 则 如 图 5-19 所 示 。 





5-19 sigmoid 层 的 计算 图 ( 仅 正 向 传播 ) 


图 5-19 中 ， 除 了 “x” 和 “4” 节点 外 ， 还 出 现 了 新 的 “exp” 和 “/” 节 点 。 
"exp" 节点 会 进行 y= exp(z) 的 计算 ,，“/” 节点 会 进行 y = 的 计算 。 

如 图 5-19 所 示 ， 式 (5.9) 的 计算 由 局 部 计算 的 传播 构成 。 下 面 我 们 就 来 
进行 图 5-19 的 计算 图 的 反 向 传播 。 这里， 作为 总 结 ， 我 们 来 依次 看 一 下 反 向 
传播 的 流程 。 
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步骤 1 


“/” 节 点 表示 y = 1 ， 它 的 导数 可 以 解析 性 地 表示 为 下 式 。 


化 


Oy _ 1 
Ox x? (5.10) 
= —y* 


ARX (5.100, EMERIT, ZOE WE care -y GET PERS h B 
平方 乘 以 一 1 后 的 值 ) 后 ， 再 传 给 下 游 。 计 算 图 如 下 所 示 。 














i = Pn apl) e en) uet y 
X exp | J / 
Z oL 2 ^ aL 
Oy i Oy 
步骤 2 
“+” 节点 将 上 游 的 值 原封 不 动 地 传 给 下 游 。 计 算 图 如 下 所 示 。 
T =T ~ exp(-2) ~N I texp(—2) 一 ~ y 
i exp + S. y 
ƏL: a we 5 l OL 
—— y Nm OL 
Oy Oy Oy 
—1 | 1 
步骤 3 


“exp” TARZ y = exp (xX)， 它 的 导数 由 下 式 表 示 。 


oY = exp(z) (5.11) 


计算 图 中 ， 上 游 的 值 乘 以 正 向 传播 时 的 输出 (这 个 例子 中 是 exp (一 z)) 后 ， 
再 传 给 下 游 。 


x 一 化 ED y 
X -ep |e t e/g 
OL Əb sf La OL 
ag” exp(—2) 7358 H7 Su 
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“x ”市 点 将 正 辐 传 播 时 的 值 翻转 后 做 乘法 运算 。 因 此 ， 这 里 要 乘 以 一 1。 





5-20 Sigmoid 层 的 计算 图 





根据 上 述 内 容 , 图 5-20 的 计算 图 可 以 进行 Sigmoid 层 的 反 向 传播 。 从 图 5-20 
的 结果 可 知 ， 反 向 传播 的 输出 为 Se y^ exp( 一 zx)， 这 个 值 会 传播 给 下 游 的 节点 。 
这 里 要 注意 ， 名 Yexp( 一 z) 这 个 值 只 根据 正 向 传播 时 的 输入 z 和 输出 y 就 可 
以 算出 来 。 因 此 , 图 5-20 的 计算 图 可 以 画 成 图 5-21 的 集约 化 的 “sigmoid” 节 点 。 











y 


sigmoid gg 





5-21 Sigmoid 层 的 计算 图 (简洁 版 ) 





图 5-20 的 计算 网 和 简洁 版 的 图 5-21 的 计算 图 的 计算 结果 是 相同 的 , 但 是 ， 
ial EM initio 略 反 回 传播 中 的 计算 过 程 ， 因 此 计算 效率 更 高 。 此 外 ， 
通过 对 点 进行 集约 化 ， 可 以 不 用 在 意 Sigmoid 层 中 琐 雁 的 细节 ， 而 只 需要 
专注 它 Maps 出 ， 这 一 点 也 很 重要 。 
FAI, ah ogy exp(—z) 可 以 进一步 整理 如 下 。 











OL » OL 1 

ay! P9079) Oy (Ere 07 
|. OL 1 exp(—2) 
— Oy 1+exp(—2) 1 + exp(—z) 


OL 
= 5, 一 y) 


(5.12) 
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因此 ， 图 5-21 所 表示 的 Sigmoid 层 的 反问 传播 ， 只 根据 正 向 传播 的 输出 
束 能 计算 出 来 。 


y 


sigmoid | LM 


OL 
Oy 





图 5-22 Sigmoid 层 的 计算 图 : 可 以 根据 正 向 传播 的 输出 y 计 算 反 向 传播 


现在 ， 我 们 用 Python 实现 Siemoid 层 。 参 考 图 5-22， 可 以 像 下 面 这 样 实 
现 (实现 的 代码 在 common/ layers.py 中 ). 


class Sigmoid: 
def init (self): 
self.out - None 


def forward(self, x): 
out = 1 / (1 + np.exp(-x)) 
self.out = out 


return out 


de 


—h 


backward(self, dout): 
dx = dout * (1.0 - self.out) * self.out 


return dx 


这 个 实现 中 ， 正 向 传播 时 将 输出 保存 在 了 实例 变量 out 中 。 然 后 ， 反 癌 
传播 时 ， 使 用 该 变量 out 进行 计算 。 





5.6 Affine/Softmax 层 的 实现 


5.6.1 Affine Æ 


神经 网 络 的 正 癌 传 播 中 ,为 了 计算 加 权 信 号 的 总 和 ,使 用 了 和 矩阵 的 乘 
只 运算 (NumPy 中 是 np.dot(),， 具体 请 参照 3.3 闻 )。 比 如 ， 还 记得 我 们 用 
Python 进行 了 下 面 的 实现 吗 ? 
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>>> X = np.random.rand(2) # 输入 
>>> W = np.random.rand(2,3) # 权重 
>>> B = np.random.rand(3) # WE 
>>> 

>>> X.shape # (2,) 

>>> W.shape # (2, 3) 

>>> B.shape # (3,) 

>>> 

>>> Y = np.dot(X, W) + B 





xUB, X, W., B^ S AEJEAR (2,). (2,3). (3) 的 多 维 数 组 。 这 样 一 
来 ， 神 经 元 的 加 权 和 可 以 用 Y = np.dot(x, w) + B 计 算出 来 。 然后，Y 经 过 
激活 函数 转换 后 ， 传 递 给 下 一 层 。 这 就 是 神经 网 络 正 癌 传 播 的 流程 。 此 外 ， 
我 们 来 复习 一 下 ， 和 矩阵 的 乘积 运算 的 要 点 是 使 对 应 维度 的 元 素 个 数 一 致 。 比 
如 ， 如 下 面 的 图 5-23 所 示 ， 关 和 W 的 乘积 必须 使 对 应 维度 的 元 素 个 数 一 致 。 

















为 外 ， 这 里 矩阵 的 形状 用 (2, 3) 这 样 的 括号 表示 (为 了 和 NumPy 的 shape 属 
性 的 输出 一 致 ) 





神经 网 络 的 正 向 传播 中 进行 的 矩阵 的 乘积 运算 在 几何 学 领域 被 称 为 “ 仿 
射 变换 "出 。 因 此 ， 这 里 将 进行 仿 射 变换 的 处 理 实现 为 “Affine 层 "。 














现在 将 这 里 进行 的 求 矩 阵 的 乘积 与 偏 置 的 和 的 运算 用 计算 图 表示 出 来 。 
将 乘积 运算 用 “dot” 节 点 表示 的 话 ， 则 np.dot(Xx, w) + B 的 运算 可 用 图 5-24 
所 示 的 计算 图 表示 出 来 。 男 外 ， 在 各 个 变量 的 上 方 标记 了 它们 的 形状 (比如 ， 
计算 图 上 显示 了 六 的 形状 为 (2,)， 关 .WW 的 形状 为 (3,) 等 )。 




















(D 儿 何 中 ， 仿 射 变换 包括 一 次 线性 变换 和 一 次 平移 ， 分 别 对 应 神经 网 络 的 加 权 和 运算 与 加 偏 置 运算 。 
一 一 译 考 注 
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图 5-24 Afhne 层 的 计算 图 (注意 变量 是 矩 阵 ， 各 个 变量 的 上 方 标记 了 该 变量 的 形状 ) 





图 5-24 是 比较 简单 的 计算 图 , 不 过 要 注意 敌 、W、B 是 矩阵 (多 维 数组 )。 
之 前 我 们 见 到 的 计算 图 中 各 个 节点 间 流 动 的 是 标量 ， 而 这 个 例子 中 各 个 市 点 
间 传 播 的 是 矩阵 。 
现在 我 们 来 考虑 图 5-24 的 计算 图 的 反 向 传播 。 以 矩阵 为 对 象 的 反 向 传播 ， 
按 失 阵 的 各 个 元 素 进 行 计 算 时 ， 步 又 和 以 标量 为 对 象 的 计算 图 相同 。 实 际 写 
一 下 的 话 ， 可 以 得 到 下 式 ( 这 里 省 略 了 式 (5.13) 的 推导 过 程 )。 
OL _ OL aT 
OX OY 
OL T OL 


aw OY 


3X (5.13) PW 的 工 表 示 转 置 。 转 置 操作 会 把 WWJZUE (i 力 换 成 元 素 
(j 人。 用 数学 式 表 示 的 话 ， 可 以 写成 下 面 这 样 。 


工 WIl Wi2 W13 
W = 
W21  w22 W23 


T 
W = W12 22 





(5.13) 





(5.14) 
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如 式 (5.14) 所 示 ， 如 果 W 的 形状 是 (2,3)，W 的 形状 就 是 (3, 2)。 
现在 ， 我们 根据 式 (5.13)， 尝 试 写 出 计算 图 的 反 向 传播 ， 如 图 5-25 所 示 。 





图 5-25 Affine RAY ROG: 注意 变量 是 多 维 数组 。 反 辣 传播 时 各 个 变量 的 下 方 标 记 了 
该 变量 的 形状 


ODE TERN 尤其 要 注意 ，X 和 中 
形状 光 状 相同 。 从 下 面 的 数学 式 可 以 很 明确 地 看 出 X AI 


5x mm IH]. 





X = (otu uin) 
C E MEA me 
OX Oro xı Oa 
FY SEVER? ACA EY He Pas BE OR MERE IR 
个 数 保持 一 致 ， 通 过 确认 一 致 性 ， eee (5.3), Kean, SI 的 形状 是 
(3)，VV 的 形状 是 (2,3) 时 ， 思 考 SL 和 人 的 乘积 ， 使 得 SE 的 形状 为 (2,) 
(图 5-26)。 这 样 一 来 ， 就 会 目 然 而 然 地 推导 出 式 (5.13)。 
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ðE yr _ OL 


OY — OX 
B) G2 B) 
[ TL. 4 





5-26 ABBEAIREAR ( “dot 节点 ) 的 有 反 向 传播 可 以 通过 组 建 使 矩阵 对 应 维度 的 元 素 个 数 一 
致 的 乘积 运算 而 推导 出 来 


5.6.2  #ChRASAY Affine EE 


HUTT 28 AY Affine RAYA X ELANA MERNE IEN 
个 数据 一 起 进行 正身 传 播 的 情况 ， 也 就 是 批 版 本 的 A 征 ne 层 。 
先 给 出 批 版 本 的 A 重 ne 层 的 计算 图 ， 如 图 5-27 所 示 。 


ƏL AL 
NU 一 =- 一.VWr7 
EM ox sv 

(N, 2) (N, 3) (3, 2) 





ow ^ * ‘ay 
[2 3) (2, N) (N, 3) 


OL OL 
一 一 ”二 一 的 第 个 Abs mp5 ; 
op y 的 第 一 个 轴 ( 第 0 轴 ) 方 各 上 的 和 


(3) (N, 3) 





5-27 ” 批 版 本 的 A 人 hne 层 的 计算 图 
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与 刚刚 不 同 的 是 ， 现 在 输入 闫 的 形状 是 (N,2)。 之 后 束 和 前 面 一 样 ， 在 
计算 图 上 进行 单纯 的 矩阵 计算 。 反 辐 传 播 时 ， 如 果 注 意 和 矩阵 的 形状 ， 束 可 以 
和 前 面 一 样 推导 出 Se Al Sar o 

加 上 偏 置 时 ,需要 特别 注意 。 正 问 传 播 时 ， 偏 置 被 加 到 关 . W 的 各 个 
数据 上 。 比 如 ，N = 2( 数 据 为 2 个 ) 时 ， 偶 置 会 被 分 别 加 到 这 2 个 数据 (各 上 月 
的 计算 结果 ) 上， 具体 的 例子 如 下 所 示 。 











>>> X_dot_W = np.array([[0, 0, 0], [10, 10, 10]]) 
>>> B = np.array([1, 2, 3]) 
>>> 
>>> X_dot_W 
array([[ 0, 90, 9], 
[ 10, 10, 10]]) 
>>> X_dot_W + B 
array([[ 1, 2, 3], 
[11, 12, 13]]) 


EMMER, ta OO EAE 1S CRIT. 27s) ES AL, 
PIRRE, eT C FI I I6] Pt 88 A TEC BELAY Di SS HRZ 
的 请 > "UH PB. 








>>> dY = np.array([[1, 2, 3,], [4, 5, 6]]) 
>>> dY 
array([[1, 2, 3], 
[4, 5, 6]]) 
>>> 
>>> dB = np.sum(dY, axis=0) 
>>> dB 


array([5, 7, 9]) 


这 个 例子 中 ,假定 数据 有 2 个 (N = 2)。 偏 置 的 反 向 传播 会 对 这 2 个 数据 
的 导数 按 元 素 进 行 求 和 。 因 此 ,这 里 使 用 了 np.sum() 对 第 0 轴 ( 以 数据 为 单 
位 的 轴 ，axis=9) 方 向 上 的 元 素 进 行 求 和 。 

综 上 所 述 ，A 生 ne SCAN RATAN. Ab, common/layers.py FÉ Affine 
的 实现 考虑 了 输入 数据 为 张 量 (四 维 数据 ) 的 情况 ， 与 这 里 介绍 的 稍 有 差别 。 
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class Affine: 
def init (self, W, b): 


self.W =W 
self.b = b 
self.x = None 


self.dw = None 
self.db = None 


def forward(self, x): 
self.x = x 
out = np.dot(x, self.W) + self.b 
return out 

def backward(self, dout): 
dx = np.dot(dout, self.W.T) 
self.dW = np.dot(self.x.T, dout) 
self.db = np.sum(dout, axis=0) 


return dx 


5.6.3 Softmax-with-Loss Ez 

最 后 介绍 一 下 输出 层 的 softmax PR, AFR $e Sid, softmax PR A 
会 将 输入 值 正规 化 之 后 再 输出 。 比 如 手写 数字 识别 时 ，Softmax 层 的 输出 如 
K| 5-28 所 示 。 





概率 
0.008 
0.00005 


uet | ivi V. 1 0.991 
. Affine | | | ReLU |, \ .| Affine | | | ReLU |, \ .| Affine Softmax 


0.00004 





图 5-28 输入 图 像 通过 Afne 层 和 了 ReLU 层 进 行 转换 ，10 个 输入 通过 Softmax 层 进行 正 
规 化 。 在 这 个 例子 中 ,“0” 的 得 分 是 5.3， 这 个 值 经 过 Softmax 层 转换 为 0.008 
(0.805); ^2" 8948455 10.1, 385516873 0.991 (99.196) 


在 图 5-28 中，Softmax 层 将 输入 值 正规 化 (将 输出 值 的 和 调整 为 1) 之 后 
再 输出 。 男 外 ， 因 为 手写 数字 识别 要 进行 10 类 分 类 ， 所 以 向 Softmax 层 的 输 
AGRAR 10%. 
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神经 网 络 中 进行 的 处 理 有 推理 (inference ) 和 学 习 两 个 阶段 。 神 经 区 
络 的 推理 通常 不 使 用 Softmax 层 。 比 如 , 用 图 5-28 的 网 络 进 行 推 理 时 ， 
会 将 最 后 一 个 Affine 层 的 输出 作为 识别 结果 。 神 经 网 络 中 未 被 正规 
化 的 输出 结果 (图 5-28 中 Softmax 层 前 面 的 Affine 层 的 输出 ) 有 时 
被 称 为 “得 分 ”"。 也 就 是 说 ， 当 神经 网 络 的 推理 只 需要 给 出 一 个 答案 
的 情况 下 ， 因 为 此 时 只 对 得 分 最 大 值 感 兴趣 ， 所 以 不 需要 Softmax 层 。 
不 过 ， 神 经 网 络 的 学 习 阶 段 则 需要 Softmax 层 。 


` 








TEKH Softmax Je, 2 ESI Xx HU TE DJ dia RRI MO 
32 (cross entropy error)， 所 以 称 为 “Softmax-with-Loss JE”, Softmax-with- 
Loss 层 (Softmax KAIS LARZA ) 的 计算 图 如 图 5-29 所 示 。 


Softmax 层 Cross Entropy Error 层 








5-29 Softmax-with-Loss 层 的 计算 图 


可 以 看 到 ，Softmax-with-Loss 层 有 些 复杂 。 这 里 只 给 出 了 最 终结 末 ， 
对 Softmax-with-Loss 层 的 导出 过 程 感 兴趣 的 读者 ， 请 参照 附录 A。 

图 5-29 的 计算 图 可 以 简化 成 图 5-30。 

Al 5-30 B T T Al A, softmax PK Bid X Softmax Ja, Sc SUE VR 2 30 2J 
Cross Entropy Error 层 。 这 里 假设 要 进行 3 类 分 类 ， 从 前 面 的 层 接收 3 个 输 
人 (得 分 )。 如 图 5-30 所 示 ，Softmax 层 将 输入 (a az, as) 正 规 化 ,输出 (ww， 
Yo, Y3)o Cross Entropy Error 层 接收 Softmax 的 输出 (yi, yo, ya) 和 教师 标签 (t, 
to, t3)， 从 这 些 数据 中 输出 损失 工 。 
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Softmax 





5-30 “简易 版 ”的 Softmax-with-Loss 层 的 计算 图 


图 5-30 中 要 注意 的 是 反 向 传播 的 结果 。Softmax 层 的 反 向 传播 得 到 了 
(yy, — ty, Yo — to, ys — ts) DORE “TB” WZ. HAF Can, ys, ys) FE Softmax BAN 
输出 ，(ti, to, ts) EA HE, HLA Cy — th, yo — te, ys — ts) 2E Softmax E BJ Hi 
出 和 教师 标签 的 差分 。 神 经 网 络 的 反问 传播 会 把 这 个 差分 表示 的 误差 传递 给 
前 面 的 层 ， 这 是 神经 网 络 学 习 中 的 重要 性 质 。 

神经 网 络 学 习 的 目的 就 是 通过 调整 权重 参数 , 使 神经 网 络 的 输出 (Softmax 
的 输出 ) 接 近 教 师 标签 。 因 此 ， 必 须 将 神经 网 络 的 输出 与 教师 标签 的 误差 高 
效 地 传递 给 前 面 的 层 。 刚 刚 的 (wi — ti, yo — te, ys — t3) IESE Softmax JA AY fi E 
与 教师 标签 的 差 ， 直截了当 地 表示 了 当前 神经 网 络 的 输出 与 教师 标签 的 误差 。 

这 里 考虑 一 个 具体 的 例子 ， 比 如 思考 教师 标签 是 (0,1, 0)，Softmax 层 
的 输出 是 (0.3, 0.2, 0.5) 的 情形 。 因 为 正确 解 标 签 处 的 概率 是 0.2(20%)， 这 个 
时 候 的 神经 网 络 未 能 进行 正确 的 识别 。 此 时 ，Softmax 层 的 反问 传播 传递 的 
是 (0.3, —0.8, 0.5) 这 样 一 个 大 的 误差 。 因 为 这 个 大 的 误差 会 向 前 面 的 层 传播 ， 
所 以 Softmax 层 前 面 的 层 会 从 这 个 大 的 误差 中 学 习 到 “大 ”的 内 容 。 
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(E FA At BIR ZEE A softmax 函数 的 损失 函数 后 ， 反 向 传播 得 到 
(yi — ti, Yo — te, ys — ts) XXE biel a GR, RE, RH ER’ 
的 结果 并 不 是 偶然 的 ， 而 是 为 了 得 到 这 样 的 结果 ， 特 意 设 计 了 交叉 
NS TR 2E PR BX, gcc han 恒 等 函数 "， 损 失 函 数 使 用 
“平方 和 误差 ”， 也 是 出 于 同样 的 理由 (3.5 节 )。 也 就 是 说 ， 使 用 “ 平 
方 和 误差” we [B SE eR” 的 损失 函数 ， 反 向 传播 才能 得 到 (wi 一 
ti, Yo 一 to, ys 一 ta) 这样 “漂亮 ”的 结果 。 


` 





再 举 一 个 例子 ， 比 如 思考 教师 标签 是 (0, 1, 0)，Softmax 层 的 输出 是 (0.01， 
0.99, 0) 的 情形 (这 个 神经 网 络 识别 得 相当 准确 )。 此 时 Softmax 层 的 反 向 传播 
传递 的 是 (0.01, —0.01, 0) 这样 一 个 小 的 误差 。 这 个 小 的 误差 也 会 向 前 面 的 层 
传播 ， 因 为 误差 很 小 ， 所 以 Softmax 层 前 面 的 层 学 到 的 内 容 也 很 “小 ”。 

现在 来 进行 Softmax-with-Loss 层 的 实现 ， 实 现 过 程 如 下 所 示 。 














class SoftmaxWithLoss: 
def init (self): 
self.loss = None # 损失 
self.y - None 4 softmax 的 输出 
self.t - None # 监督 数据 (one-hot vector) 


de 


—h 


forward(self, x, t): 

self.t = t 

self.y = softmax(x) 

self.loss = cross entropy error(self.y, self.t) 


return self.loss 


de 


—h 


backward(self, dout=1): 
batch size = self.t.shape[0] 
dx = (self.y - self.t) / batch size 


return dx 


ix^ SE EWA A T 3.5.2759 A 4.2.4 15 ASCH AY softmax() 和 cross entropy 
error() PAZ, DAE, KEWER fy EE FG, RE PHB 
的 值 除 以 批 的 大 小 (batch_size) 后 ， 传 递 给 前 面 的 层 的 是 单个 数据 的 误差 。 
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5.7 ”误差 反 回 传播 法 的 实现 








通过 像 组 装 乐高 积木 一 样 组 装 上 一 闻 中 实现 的 层 ， 可 以 构建 神经 网 络 。 
本 帮 我 们 将 通过 组 装 已 NENNEN. 











5.7.1 ”神经 网 络 学 习 的 全 貌 图 


在 进行 具体 的 实现 之 前 ,我 们 再 来 确认 一 下 神经 网 络 学 习 的 全 貌 图 。 神 
经 网 络 学 习 的 步 又 如 下 所 示 。 


前 提 
神经 网 络 中 有 合适 的 权重 和 偏 置 ， 调 整 权 重 和 偏 置 以 便 拟 合 训练 数据 的 
过 程 称 为 学 习 。 和 神经 网 络 的 学 习 分 为 下 面 4 个 步骤 。 


步骤 1 (mini-batch) 
从 训练 数据 中 随机 选择 一 部 分 数据 。 


步骤 2( 计算 梯度 ) 
计算 损失 函数 关于 各 个 权重 参数 的 梯度 。 


步骤 3( 更 新 参数 ) 
将 权重 参数 沿 梯 度 方 向 进行 微小 的 更 新 。 


之 前 介绍 的 误差 反 回 传播 法 会 在 步 又 2 中 出 现 。 上 一 章 中 ， 我 们 利用 数 
值 微分 求 得 了 这 个 梯度 。 数 值 微分 虽然 实现 简单 ， 但 是 计算 要 耗费 较 多 的 时 
间 。 和 需要 花费 较 多 时 间 的 数值 微分 不 同 ， 误差 反问 传播 法 可 以 快速 高 效 地 
计算 梯度 。 
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5.2. ”对 应 误差 反 回 传播 法 的 神经 网 络 的 实现 


现在 来 进行 神经 网 络 的 实现 。 这 里 我 们 要 把 2 层 神经 网 络 实现 为 TwoLayerNet。 
首先 ， 将 这 个 类 的 实例 变量 和 方法 整理 成 表 5-1 和 表 5-2。 


表 5-1 TwoLayerNet 类 的 实例 变量 





实例 变量 










params 保存 神经 网 络 的 参数 的 字典 型 变量 。 
params['W1'] 是 第 1 层 的 权重 ，params['b1'] 是 第 1 层 的 偏 置 。 
params['W2'] 是 第 2 层 的 权重 ，params['b2'] 是 第 2 层 的 偏 置 
Layers 保存 神经 网 络 的 层 的 有 序 字 典型 变量 。 
Ly layers[ 'Affinel'], layers['ReLu1'], layers['Affine2'] 的 形式 ， 
通过 有 序 字 典 保存 各 个 层 
LastLayer 神经 网 络 的 最 后 一 层 。 


本 例 中 为 SoftmaxWithLoss 层 





表 5-2 TwoLayerNet 类 的 方法 


方法 说 明 
| init (self, input size, 进行 初始 化 。 


参数 从 头 开始 依次 是 输入 层 的 神经 元 数 、 隐 藏 层 的 
神经 元 数 、 输 出 层 的 神经 元 数 、 初 始 化 权重 时 的 高 
斯 分 布 的 规模 


进行 识别 (推理 )。 
参数 x 是 图 像 数 据 


计算 损失 函数 的 值 。 
参数 x 是 图 像 数 据 、t 是 正确 解 标签 


计算 识别 精度 
通过 数值 微分 计算 关于 权重 参数 的 梯度 (同上 一 章 ) 
通过 误差 反 向 传播 法 计算 关于 权重 参数 的 梯度 


hidden size, output size, 
weight init std) 


predict(self, x) 


loss(self, x, t) 


accuracy(self, x, t) 
numerical gradient(self, x, t) 


gradient(self, x, t) 








这 个 类 的 实现 稍微 有 一 点 长 ,但 是 内 容 和 4.5 5 B5 2J I AY SEA AIR 
多 共通 的 部 分 ， 不同 点 主要 在 于 这 里 使 用 了 层 。 通 过 使 用 层 ， 获 得 识别 结 
的 处 理 (predict() ) 和 计算 梯度 的 处 理 (gradient() ) 只 需 通过 层 之 间 的 传递 就 
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成 。 下 面 是 TwoLayerNet 的 代码 实现 。 


import sys, os 

sys.path.append(os.pardir) 

import numpy as np 

from common.layers import * 

from common.gradient import numerical gradient 
from collections import OrderedDict 


class TwoLayerNet: 


def 


def 


# x: 


def 


def 


| init (self, input size, hidden size, output size, 
weight init std=0.01): 

# 初始 化 权重 

self.params = {} 

self.params['W1'] = weight init std * ^ 
np.random.randn(input size, hidden size) 

self.params['b1'] = np.zeros(hidden size) 

self.params['W2'] = weight init std * \ 
np.random.randn(hidden size, output size) 

self.params['b2'] = np.zeros(output size) 


# 生成 层 

self.layers = OrderedDict() 

self.layers['Affinel'] = \ 
Affine(self.params['W1'], self.params['b1']) 

self.layers['Relul'] = Relu() 

self.layers['Affine2'] = \ 
Affine(self.params['W2'], self.params['b2']) 


self.lastLayer - SoftmaxWithLoss() 


predict(self, x): 
for layer in self.layers.values(): 
x = layer.forward(x) 


return x 


输入 数据 ，t : 监督 数据 

loss(self, x, t): 

y = self.predict(x) 

return self.lastLayer.forward(y, t) 


accuracy(self, x, t): 

y = self.predict(x) 

y - np.argmax(y, axis-1) 

if t.ndim != 1 : t = np.argmax(t, axis-1) 


5.7 误差 反 向 传播 法 的 实现 | 157 


accuracy = np.sum(y == t) / float(x.shape[0] ) 
return accuracy 


# x: 输入 数据 ，t: 监督 数据 
def numerical gradient(self, x, t): 
loss W = lambda W: self.loss(x, t) 


grads = {} 

grads['W1'] = numerical gradient(loss W, self.params[ 'W1']) 
grads['b1'] = numerical gradient(loss W, self.params['b1']) 
grads['W2'] = numerical gradient(loss W, self.params['W2']) 
grads['b2'] = numerical gradient(loss W, self.params['b2']) 


return grads 


de 


—h 


gradient(self, x, t): 
# forward 
self.loss(x, t) 


# backward 
dout = 1 
dout = self.lastLayer. backward (dout) 


layers = list(self.layers.values()) 
layers.reverse() 
for layer in layers: 

dout = layer.backward(dout) 


# WE 

grads = {} 

grads['W1'] = self.layers['Affinel'].dW 
grads['b1'] = self.layers['Affinel'].db 
grads['W2'] = self.layers['Affine2'].dW 
grads['b2'] = self.layers['Affine2'].db 


return grads 


请 注意 这 个 实现 中 的 粗 体 字 代 码 部 分 ， 尤 其 是 将 神经 网 络 的 层 保存 为 
OrderedDict 这 一 点 非常 重要 。0rderedDict 是 有 序 字 上 典 ,“ 有 序 ” 是 指 它 可 以 
记 住 向 字 典 里 添加 元 系 的 顺序 。 因 此 ， 神 经 网 络 的 正身 传播 只 需 按 照 添 加 元 
素 的 顺序 调用 各 层 的 forward() 方 法 就 可 以 完成 处 理 ， 而 反问 传播 只 需要 按 
照相 反 的 顺序 调用 各 层 即 可 。 因 为 Affine 层 和 ReLU 层 的 内 部 会 正确 人 处理 正 
问 传 播 和 反 回 传播 ， 所 以 这 里 要 做 的 事情 仅仅 是 以 正确 的 顺序 连接 各 层 ， 再 
按 顺 序 ( 或 者 逆序 ) 调 用 各 层 。 
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像 这 样 通 过 将 神经 网 络 的 组 成 元 素 以 层 的 方式 实现 ， 可 以 轻松 地 构建 神 
经 网 络 。 这 个 用 层 进行 模块 化 的 实现 具有 很 大 优点 。 因 为 想 男 外 构建 一 个 神 
经 网 络 ( 比 如 5 层 、10 层 、20 层 …… 的 大 的 神经 网 络 ) 时 ， 只 和 需 像 组 装 乐 高 
积木 那样 添加 必要 的 层 就 可 以 了 。 之 后 ， 通 过 各 个 层 内 部 实现 的 正 问 传 播 和 
反问 传播 ， 就 可 以 正确 计算 进行 识别 处 理 或 学 习 所 需 的 梯度 。 





5.7.3 ” 误 帮 反问 传 播 法 的 柳 度 确认 

到 目前 为 止 ， 我们 介绍 了 两 种 求 梯度 的 方法 。 一 种 是 基于 数值 微分 的 方 
法 ， 男 一 种 是 解析 性 地 求解 数学 式 的 方法 。 后 一 种 方法 通过 使 用 误差 反 疝 传 
播 法 ， 即 使 存在 大 量 的 参数 ， 也 可 以 高 效 地 计算 梯度 。 因 此 ， 后 文 将 不 再 使 
用 耗费 时 间 的 数值 微分 ， 而 是 使 用 误差 反 向 传播 法 求 梯度 。 

数值 微分 的 计算 很 耗费 时 间 ， 而且 如 果 有 误差 反 向 传播 法 的 (正确 的 ) 
实现 的 话 ， 就 没有 必要 使 用 数值 微分 的 实现 了 。 那 么 数值 微分 有 什么 用 呢 ? 
实际 上 ， 在 确认 误差 反 站 传播 法 的 实现 是 否 正确 时 ， 是 需要 用 到 数值 微分 的 。 

数值 微分 的 优点 是 实现 简单 ， 因 此 ， 一 般 情 况 下 不 太 容 易 出 错 。 而 误差 
有 反 向 传播 法 的 实现 很 复杂 ， 容 易 出 错 。 所 以 ,经 第 会 比较 数值 微分 的 结 末 和 
误差 反 回 传播 法 的 结果 ， 以 确认 误差 反 各 传播 法 的 实现 是 否 正 确 。 确 认 数值 
微分 求 出 的 梯度 结果 和 误差 反 向 传播 法 求 出 的 结果 是 否 一 致 (严格 地 讲 ， 是 
非常 相近 ) 的 操作 称 为 梯度 确认 (gradient check), 梯度 确认 的 代码 实现 如 下 
所 示 ( 源 代码 在 ch05/gradient_check.py 中 )。 



































import sys, os 
Sys.path.append(os.pardir) 

import numpy as np 

from dataset.mnist import load mnist 
from two layer net import TwoLayerNet 


# 读 人 数据 
(x train, t train), (x test, t test) = \ load mnist(normalize-True, one 
hot label - True) 


network = TwoLayerNet(input size-784, hidden size=50, output size-10) 


x batch = x train[:3] 
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t batch = t train[:3] 


grad numerical - network.numerical gradient(x batch, t batch) 
grad backprop - network.gradient(x batch, t batch) 


# 求 各 个 权重 的 绝对 误差 的 平均 值 
for key in grad numerical.keys(): 
diff = np.average( np.abs(grad backprop[key] - grad numerical[key]) ) 
print(key + ":" + str(diff)) 
和 以 前 一 样 ， 读 入 MNIST 数 据 集 。 然 后 ,使 用 训练 数据 的 一 部 分 ， 确 
认 数 值 微分 求 出 的 梯度 和 误差 反问 传播 法 求 出 的 梯度 的 误差 。 这 里 误差 的 计 
算 方法 是 求 各 个 权重 参数 中 对 应 元 素 的 差 的 绝对 值 ， 并 计算 其 平均 值 。 运 行 
上 面 的 代码 后 ， 会 输出 如 下 结 采 。 








b1:9.70418809871e-13 

W2:8.41139039497e- 13 

b2:1.1945999745e-10 

W1:2.2232446644e-13 

从 这 个 结果 可 以 看 出 ， 通 过 数值 微分 和 误差 反问 传播 法 求 出 的 梯度 的 差 
非常 小 。 比 如 , 第 1 层 的 偏 置 的 误差 是 9.7e-13(0.900099999999997 )。 这 样 一 来 ， 
我 们 就 知道 了 通过 误差 反 向 传播 法 求 出 的 梯度 是 正确 的 ， 误 差 反 向 传播 法 的 
实现 没有 错误 。 





数值 微分 和 误差 反 辐 传播 法 的 计算 结果 之 间 的 误 季 为 0 是 很 少见 的 。 
这 是 因为 计算 机 的 计算 精度 有 限 ( 比如，32 位 浮 点 数 )。 受 到 数值 精 
度 的 限制 ， 刚 才 的 误差 一 般 不 会 为 0， 但 是 如 果实 现 正 确 的 话 ， 可 
以 期 竺 这 个 误 委 是 一 个 接近 0 的 很 小 的 值 。 如 果 这 个 值 很 大 ， 融 说 
明 误 差 反 向 传播 法 的 实现 存在 错误 。 





5.7.4 ”使 用 误差 反 回 传播 法 的 学 习 

最 后 ， 我 们 来 看 一 下 使 用 了 误差 反问 传播 法 的 神经 网 络 的 学 习 的 实现 。 
和 之 前 的 实现 相 比 ， 不 同 之 处 仅 在 于 通过 误差 反 向 传播 法 求 梯 度 这 一 点 。 这 
里 只 列 出 了 代码 ， 省 略 了 说 明 ( 源 代 码 在 ch65/train_neuralnet.py 中 )。 
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import sys, os 
Sys.path.append(os.pardir) 

import numpy as np 

from dataset.mnist import load mnist 
from two layer net import TwoLayerNet 


# 读 和 人 数据 
(x train, t train), (x test, t test) = \ 
load mnist(normalize-True, one hot label-True) 


network = TwoLayerNet(input size-784, hidden size=50, output size-10) 


iters num - 10000 

train size - x train.shape[0] 
batch size - 100 

learning rate - 0.1 

train loss list - [] 
train acc list = [] 
test acc list = [] 


iter per epoch - max(train size / batch size, 1) 


for i in range(iters num): 
batch mask = np.random.choice(train size, batch size) 
x batch = x train[batch mask] 
t batch = t train[batch mask] 


# 通过 误差 反 向 传播 法 求 梯度 
grad = network.gradient(x batch, t batch) 


# 更 新 
for key in ('Wl', 'bl', 'W2', 'b2'): 
network.params[key] -- learning rate * grad[key] 


loss = network.loss(x batch, t batch) 
train loss list.append(loss) 


if i % iter per epoch == 
train acc = network.accuracy(x train, t train) 
test acc - network.accuracy(x test, t test) 
train acc list.append(train acc) 
test acc list.append(test acc) 
print(train acc, test acc) 
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S.8 小结 





本 章 我 们 介绍 了 将 计算 过 程 可 视 化 的 计算 图 ， 并 使 用 计算 图 ， 介 绍 了 神 
经 网 络 中 的 误差 反问 传播 法 ， 并 以 层 为 单位 实现 了 神经 网 络 中 的 人 处理 。 我 们 
mt A EW ReLU Je. Softmax-with-Loss Jz, Affine |Z. Softmax SE, ix 
些 层 中 实现 了 forward 和 backward 方 法 ， 通 过 将 数据 正 向 和 反 向 地 传播 ， 可 
以 高 效 地 计算 权重 参数 的 梯度 。 通 过 使 用 层 进行 模块 化 ， 神 经 网 络 中 可 以 目 
由 地 组 闭 层 ， 轻 松 构建 出 目 己 喜 欢 的 网 络 。 




















本 章 所 学 的 内 容 
通过 使 用 计算 图 ， 可 以 直观 地 把 握 计算 过 程 。 
计算 图 的 节点 是 由 局 部 计算 构成 的 。 局 部 计算 构成 全 局 计算 。 
计算 图 的 正 向 传播 进行 一 般 的 计算 。 通 过 计算 图 的 反 向 传播 ， 可 以 


计算 各 个 节点 的 导数 。 
通过 将 神经 网 络 的 组 成 元 素 实 现 为 层 ， 可 以 高 效 地 计算 梯度 ( 反 向 传 
Bik). 

通过 比较 数值 微分 和 误差 反 向 传播 法 的 结果 ， 可 以 确认 误差 反 向 传 
播 法 的 实现 是 否 正确 (梯度 确认 )。 





第 6 章 
与 学 习 相 关 的 技巧 


本 章 将 介绍 神经 网 络 的 学 习 中 的 一 些 重要 观点 ， 主 题 涉及 寻找 最 优 权 重 
参数 的 最 优化 方法 、 权 重 参数 的 初始 值 、 超 参数 的 设 定 方法 等 。 此 外 ， 为 了 
应 对 过 拟 合 ， 本 章 还 将 介绍 权 值 衰减 、Dropout 等 正则 化 方法 ， 并 进行 实现 。 
最 后 将 对 近年 来 众多 研究 中 使 用 的 Batch Normalization 方 法 进行 简单 的 介绍 。 
使 用 本 章 介 绍 的 方法 ， 可 以 高 效 地 进行 神经 网 络 ( 深 度 学 习 ) 的 学 习 ， 提 高 
识别 精度 。 让 我 们 一 起 往 下 看 吧 ! 














6.1 参数 的 更 新 





神经 网 络 的 学 习 的 目的 是 找到 使 损失 函数 的 值 尺 可 能 小 的 参数 。 这 是 寻 
找 最 优 参 数 的 问题 , 解决 这 个 问题 的 过 程 称 为 最 优化 (optimization)。 遗憾 的 是 ， 
神经 网 络 的 最 优化 问题 非常 难 。 这 是 因为 参数 空间 非常 复 杂 ， 无 法 轻易 找到 
最 优 解 (无 法 使 用 那 种 通过 解数 学 式 一 下 子 就 求 得 最 小 值 的 方法 )。 而 且 , 在 
深度 神经 网 络 中 ， 参 数 的 数量 非常 庞大 ， 导 致 最 优化 问题 更 加 复杂 。 

在 前 几 音 中 , 为 了 找到 最 优 参数 ,我 们 将 参数 的 梯度 (导数 ) 作 为 了 线索 。 
使 用 参数 的 梯度 ， 沿 梯度 方向 更 新 参数 ， 并 重复 这 个 步 又 多 次 ， 从 而 逐渐 徘 
近 最 优 参 数 ， 这 个 过 程 称 为 随机 梯度 下 降 法 (stochastic gradient descent), 
简称 SGD。SGD 是 一 个 简单 的 方法 , 不 过 比 起 衣 乱 地 搜索 参数 空间 , 也 算是 “ 聪 
明 ” 的 方法 。 但 是 ， 根 据 不 同 的 问题 ， 也 存在 比 SGD 更 加 聪明 的 方法 。 本 下 
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我 们 将 指出 SGD 的 缺点 ， 并 介绍 SGD 以 外 的 其 他 最 优化 方法 。 


6.1.1 ”探险 家 的 故事 
进入 正题 前 ， 我 们 先 打 一 个 比方 , 来 说 明 关 于 最 优化 我 们 所 处 的 状况 。 





有 一 个 性 情 十 怪 的 探险 家 。 他 在 广 冲 的 干旱 地 带 旅行 ， 坚 持 寻找 山 
深 的 山谷 。 他 的 目标 是 要 到 达 最 深 的 谷底 (他 称 之 为 “至 深 之 地 ”)。 这 
也 是 他 旅行 的 目的 。 并 且 ， 他 给 自己 制定 了 两 个 严格 的 “规定 ”: 一 个 
是 不 看 地 图 ; 另 一 个 是 把 眼睛 蒙 上 。 因 此 ， 他 并 不 知道 最 深 的 谷底 在 这 
个 广 可 的 大 地 的 何 处， 而且 什 么 也 看 不 见 。 在 这 么 严 奇 的 条 件 下 ， 这 位 
探险 家 如 何 前 往 “ 至 深 之 地 ” 呢 ? 他 要 如 何 迈 步 ， 才 能 迅速 找到 “至 深 
之 地 ” 呢 ? 


寻找 最 优 参 数 时 ， 我 们 所 处 的 状况 和 这 位 探险 家 一 样 ， 是 一 个 漆黑 的 世 
界 。 我 们 必须 在 没有 地 图 、 不 能 睁 眼 的 情况 下 ， 在 广 交 、 复 杂 的 地 形 中 寻找 
“至 以 之 地 ”"。 大 家 可 以 想象 这 是 一 个 多 么 难 的 问题 。 

在 这 么 困难 的 状况 下 ， 地 面 的 坡度 显得 尤为 重要 。 探 险 家 虽然 看 不 到 周 
围 的 情况 , 但 是 能 够 知道 当前 所 在 位 置 的 坡度 (通过 脚底 感受 地 面 的 倾斜 状况 )。 
于 是 ， 吕 看 当前 所 在 位 置 的 坡度 最 大 的 方 回 前 进 ， 就 是 SGD HRE. AHA 
的 探险 家 心里 可 能 想 着 只 要 重复 这 一 东 略 ， 总 有 一 大 可 以 到 达 “ 至 深 之 地 ”。 








6.1.2 SGD 


让 大 家 感受 了 最 优化 问题 的 难度 之 后 ， 我 们 再 来 复习 一 下 SGD。 用 数 
学 式 可 以 将 SGD 写成 如 下 的 式 (6.1)。 








W c W -ni (6.1) 


这 里 把 需要 更 新 的 权重 参数 记 为 W， 把 损失 函数 关于 WHI dus 
7 表示 学 习 率 ， 实 际 上 会 取 0.01 或 0.001 这 些 事先 决定 好 的 值 。 式 子 中 的 二 
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表示 用 右边 的 值 更 新 左边 的 值 。 如 式 (6.1) 所 示 ，SGD 是 朝 着 梯度 方 癌 只 前 
进 一 定 距离 的 简单 方法 。 现 在 ,我 们 将 SGD 实现 为 一 个 Python 类 (为 方便 
后 面 使 用 ， 我 们 将 其 实现 为 一 个 名 为 S60 的 类 )。 





class SGD: 
def init (self, lrz0.01): 
self.lr = lr 


def update(self, params, grads): 
for key in params.keys(): 
params[key] -= self.lr * grads[key] 


这 里 ， 进 行 初始 化 时 的 参数 tr 表示 learning rate( 学 习 率 )。 这 个 学 习 率 
会 保存 为 实例 变量 。 此 外 ， 代 码 段 中 还 定义 了 update(params，grads) 方法 ， 
这 个 方法 在 SGD 中 会 被 反复 调用 。 参 数 params 和 grads (与 之 前 的 神经 网 络 
的 实现 一 样 ) 是 字典 型 变量 ， 按 params['W1']、grads['w1'] 的 形式 ,分 别 保 
存 了 权重 参数 和 它们 的 梯度 。 

使 用 这 个 S60 类 ， 可 以 按 如 下 方式 进行 神经 网 络 的 参数 的 更 新 (下 面 的 
代码 是 不 能 实际 运行 的 伪 代 码 )。 





network = TwoLayerNet(...) 
optimizer = SGD() 


for i in range(10000): 


X batch, t batch = get mini batch(...) # mini-batch 
grads - network.gradient(x batch, t batch) 

params = network.params 

optimizer.update(params, grads) 


这 里 首次 出 现 的 变量 名 optimizer 表 示 “ 进 行 最 优化 的 人 ”的 意思 ， 这 里 
FH SGD 承担 这 个 角色 。 参 数 的 更 新 由 optimizer 负 责 完成 。 我 们 在 这 里 需要 
做 的 只 是 将 参数 和 梯度 的 信息 传 给 optimizer。 

像 这 样 ， 通 过 单独 实现 进行 最 优化 的 类 ， 功 能 的 模块 化 变 得 更 简单 
比如 ， 后 面 我 们 马上 会 实现 另 一 个 最 优化 方法 Momentum， 它 同样 会 实现 
成 拥有 update(params, grads) 这 个 共同 方法 的 形式 。 这 样 一 来 ， 只 需要 将 





O 





166 | 第 6 章 与 学 习 相关 的 技巧 


optimizer = SGD() 这 一 语句 换 成 optimizer = Momentum(), LAT LAM SGD HJ 


+. Momentum, 


很 多 深度 学 习 框 架 并 且 提 供 了 可 以 简单 
切换 这 些 方 法 的 构造 。 比 如 Lasagne 深 度 学 习 框 架 ， 在 updates .py 
这 个 文件 中 以 函数 的 形式 集中 实现 了 最 优化 方法 。 用 户 可 以 从 中 选 


择 上 自己 想 用 的 最 优化 方法 。 





6.1.3 SGD 的 缺点 
虽然 SGD 简单 ， 并 且 容 易 实 现 ， 但 是 在 解决 某 些 问题 时 可 能 没有 效率 。 


这 里 ， 在 指出 SGD 的 缺点 之 际 ， 我 们 来 思考 一 下 求 下 面 这 个 函数 的 最 小 值 
的 问题 。 











fey) = spa yf (6.2) 


UNE] 6-1 RAN, 3X (6.2) XAR BY PR Boe I6] o A88 77 18] SE HA) E TR PRI BC 
实际 上 ， 式 (6.2) 的 等 高 线 呈 向 x 轴 方 向 延伸 的 椭圆 状 。 
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图 6-1 f(x,y) = pr? +y’ 的 图 形 ( 左 图 ) 和 它 的 等 高 线 ( 右 图 ) 


6.1 参数 的 更 新 | 167 


现在 看 一 下 式 46.2) 表 示 的 函数 的 梯度 。 如 果 用 图 表示 梯度 的 话 ， 则 如 
图 6-2 所 示 。 这 个 梯度 的 特征 是 ，y 轴 方 同 上 大 ，z 轴 方向 上 小 。 换 名 话说， 
就 是 y 轴 方向 的 坡度 大 ， 而 z 轴 方 回 的 坡度 小 。 这 里 需要 注意 的 是 ， 虽 然 式 
(6.2) 的 最 小 值 在 (z,y) = (0,0) 处 ， 但 是 图 6-2 中 的 梯度 在 很 多 地 方 并 没有 指 
向 (0,0)。 








图 6-2 f(x,y) = 5r? 十 2%2 的 梯度 


我 们 来 尝试 对 图 6-1 LAER KZU SGD, M (x, y) = (—7.0, 2.0) Xb 
(初始 值 ) 开 始 搜索 ， 结 果 如 图 6-3 所 示 。 

在 图 6-3 中 ,SGD 呈 “ 之 ”字形 移动 。 这 是 一 个 相当 低 效 的 路 径 。 也 就 是 说 ， 
SGD 的 缺点 是 ， 如 果 函 数 的 形状 非 均 向 (anisotropic)， 比 如 时 延伸 状 ， 搜 索 
的 路 径 就 会 非常 低 效 。 因 此 ， 我 们 需要 比 单纯 朝 梯度 方向 前 进 的 SGD SECHS 
明 的 方法 。SGD 低 效 的 根本 原因 是 ， 梯 度 的 方向 并 没有 指向 最 小 值 的 方向 。 

为 了 改正 SGD 的 缺点 ， 下 面 我 们 将 介绍 Momentum, AdaGrad, Adam3X3 
种 方法 来 取代 SGD。 我 们 会 简单 介绍 各 个 方法 ， 并 用 数学 式 和 Python 进行 实现 。 
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图 6-3 基于 SGD 的 最 优化 的 更 新 路 径 : 呈 之 字形 朝 最 小 值 (0, 0) 移动 ， 效 率 低 


6.1.4 Momentum 





Momentum 是 “动量 ”的 意思 ， 和 物理 有 关 。 用 数学 式 表 示 Momentum 77 
法 ， 如 下 所 示 。 


OL 


law (6.3) 


V €— QV 一 


W —W-4wv (6.4) 


和 前 面 的 SGD —FE, WB, SE RK BR 
TWIHBJBE.mndmnEMAX. CT ev, LE RE 
式 (6.3) 表 示 了 物体 在 梯度 方 回 上 受 力 ， 在 这 个 力 的 作用 下 ， 物 体 的 速度 增 
加 这 一 物理 法 则 。 如 图 6-4 所 示 ，Momentum 方 法 给 人 的 感觉 就 像 是 小 球 在 
地 面 上 滚动 。 
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图 6-4 Momentum: 小 球 在 科 面 上 深 动 


式 (6.3) 中 有 avw 这 一 项 。 在 物体 不 受 任何 力 时 ， 该 项 承担 使 物体 逐渐 减 
速 的 任务 (a 设 定 为 0.9 之 类 的 值 )， 对 应 物理 上 的 地 面 摩 擦 或 空气 阻力 。 下 
面 是 Momentum 的 代码 实现 ( 源 代 码 在 common/optimizer. py FP ), 


class Momentum: 
def | init (self, lr=0.01, momentum=0.9) : 
self.lr = lr 
self.momentum = momentum 
self.v = None 


de 


—h 


update(self, params, grads): 
if self.v is None: 
self.v = {} 
for key, val in params.items(): 
self.v[key] = np.zeros like(val) 


for key in params.keys(): 
self.v[key] = self.momentum*self.v[key] - self.lr*grads[key] 
params[key] += self.v[key] 


实例 变量 v 会 保存 物体 的 速度 。 初 始 化 时 ，v 中 什么 都 不 保存 ， 但 当 第 
一 次 调用 update() 时 ，v 会 以 字典 型 变量 的 形式 保存 与 参数 结构 相同 的 数据 。 
剩余 的 代码 部 分 就 是 将 式 (6.3)、 式 (6.4) 写 出 来 ， 很 简单 。 

现在 尝试 使 用 Momentum 解决 式 (6.2) 的 最 优化 问题 ， 如 图 6-5 所 示 。 

图 6-5 中 ， 更 新 路 径 就 像 小 球 在 辜 中 深 动 一 样 。 和 SGD 相 比 ， 我 们 发 现 
“之 ”字形 的 “程度 ”减轻 了 。 这 是 因为 虽然 z 轴 方向 上 受到 的 力 非常 小 ,但 
是 一 直 在 同一 方向 上 受 力 ， 所 以 朝 同一 个 方向 会 有 一 定 的 加 速 。 反 过 来 ， 虽 
然 y 轴 方向 上 受到 的 力 很 大 ， 但 是 因为 交互 地 受到 正方 向 和 反方 向 的 力 ， 它 
们 会 互相 抵消 ， 所 以 y 轴 方向 上 的 速度 不 稳定 。 因 此 ， 和 SGD 时 的 情形 相 比 ， 
可 以 更 快 地 朝 z 轴 方向 靠近 ， 减 弱 “ 之 ”字形 的 变动 程度 。 
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Momentum 





6-5 F Momentum 的 最 优化 的 更 新 路 径 


6.1.5 AdaGrad 


在 神经 网 络 的 学 习 中 , 学 习 率 (数学 式 中 记 为 n) 的 值 很 重要 。 学 习 率 过 小 ， 
会 导致 学 习 花 费 过 多 时 间 ; 反 过 来 ， 学 习 率 过 大 ， 则 会 导致 学 习 发 散 而 不 能 
正确 进行 。 

在 关于 学 习 率 的 有 效 技巧 中 ， 有 一 种 被 称 为 学 习 率 衰减 (learning rate 
decay) 的 方法 ， 即 随 着 学 习 的 进行 , 使 学 习 率 逐渐 减 小 。 实 际 上 , 一 开始 “多 ” 
学 ， 然 后 逐渐 “ 少 ” 学 的 方法 ， 在 神经 网 络 的 学 习 中 经 常 补 使 用 。 

逐渐 减 小 学 习 率 的 想法 ， 相 当 于 将 “全 体 ” 参数 的 学 习 率 值 一 起 降低 。 
而 AdaGrad "进一步 发 展 了 这 个 想法 ， 针 对 “一 个 一 个 ”的 参数 ， 赋 予 其 “ 定 
制 ”的 值 。 

AdaGrad 会 为 参数 的 每 个 元 素 适 当地 调整 学 习 率 ， 与 此 同时 进行 学 习 
(AdaGrad 的 Ada 来 自 英 文 单词 Adaptive， 即 “适当 的 ”的 意思 )。 下 面 ， 让 
我 们 用 数学 式 表示 AdaGrad 的 更 新 方法 。 
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OL OL 
h&h+ a; © pw (6.5) 
1 ðL 
We (6.6) 
和 前 面 的 SGD 一 样 ，W 表 示 要 更 新 的 权重 参数 ， TR db A PRA 





TWIN, RREZIK, XA Se ath, sash (6.5) BER, "EAR 
MODEM 点 矩阵 元 素 的 乘法 ) 
然后 ， 在 更 新 参数 时 ， 通 过 乘 以 志 ， 就 可 以 调整 学 习 的 尺度 。 这 意味 着 ， 
参数 的 元 素 中 变 gt enn 小 。 也 就 是 说 ， 
可 以 按 参数 的 元 素 进行 学 习 率 衰减 ， 使 变动 大 的 参数 的 学 习 率 逐渐 减 小 。 

















AdaGrad 会 记录 过 去 所 有 梯度 的 平方 和 。 因 此 ， 学 习 越 深入 ， 更 新 
的 幅度 就 越 小 。 实 际 上 ， 如 果 无 止境 地 学 习 ， 更 新 量 就 会 变 为 0， 
完全 不 再 更 新 。 为 了 改善 这 个 问题 ， 可 以 使 用 RMSProp "方法 。 
RMSProp 方 法 并 不 是 将 过 去 所 有 的 梯度 一 视 同仁 地 相 加 ， 而 是 逐渐 
地 遗忘 过 去 的 梯度 ,在 做 加 法 运算 时 将 新 梯度 的 信息 更 多 地 反映 出 来 。 
这 种 操作 从 专业 上 讲 ， 称 为 “指数 移动 平均 ”"， 呈 指数 函数 式 地 减 小 
过 去 的 梯度 的 尺度 。 





现在 来 实现 AdaGrad。AdaGrad 的 实现 过 程 如 下 所 示 ( 源 代码 在 


common/optimizer.py 中 )。 


class AdaGrad: 
def init (self, lrz0.01): 
self.lr = lr 
self.h = None 


—h 


def update(self, params, grads): 

if self.h is None: 

self.h = {} 

for key, val in params.items(): 


self.h[key] = np.zeros like(val) 


for key in params.keys(): 
self.h[key] += grads[key] * grads[key] 
params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + le-7) 
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这 里 需要 注意 的 是 ， 最 后 一 行 加 上 了 微小 值 le-7。 这 是 为 了 防止 当 
seLf.h[key] 中 有 0 时 ， 将 0 用 作 除 数 的 情况 。 在 很 多 次 度 学 习 的 框 漆 中， 这 
个 微小 值 也 可 以 设 定 为 参数 ， 但 这 里 我 们 用 的 是 le-7 这 个 固定 值 。 

现在 , 让 我 们 试 着 使 用 AdaGrad 解决 式 (6.2) 的 最 优化 问题 , 结果 如 图 6-6 
Biz e 











AdaGrad 





6-6 ”基于 AdaGrad 的 最 优化 的 更 新 路 径 


由 图 6-6 的 结果 可 知 ， 函 数 的 取 值 高 效 地 向 者 最 小 值 移 动 。 由 于 y 轴 方 
向 上 的 梯度 较 大 ， 因 此 刚 开 始 变 动 较 大 ,但 是 后 面 会 根据 这 个 较 大 的 变动 按 
比例 进行 调整 ， 减 小 更 新 的 步伐 。 因 此 ，y 轴 方 同 上 的 更 新 程度 被 减弱 ,“ 之 ” 
FIG HY ENE EA TEM o 








6.1.6 Adam 





Momentum #8 /|\ BREE Bi PRIE, AdaGrad HE 
数 的 每 个 元 素 适 当地 调整 更 新 步伐 。 如 果 将 这 两 个 方法 融合 在 一 起 会 怎么 样 
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WE? 这 就 是 Adamg 方法 的 基本 思路 。 
Adam 是 2015 年 提出 的 新 方法 。 它 的 理论 有 些 复杂 ， 和 直观 地 讲 ， 就 是 融 
A T Momentum 和 AdaGrad WIE. HWA HM SOKA, 8 2B 
实现 参数 空间 的 高 效 搜索 。 此 外 , 进行 超 参 数 的 “ 偏 置 校正 ”也 是 Adam 的 特征 。 
这 里 不 再 进行 过 多 的 说 明 ， 详细 内 容 请 参考 原作 者 的 论文 ~"。 关 于 Python 
的 实现 , common/optimizer.py 中 将 其 实现 为 了 Adam 类 , 有 兴趣 的 读者 可 以 参考 。 
现在 , 我 们 试 着 使 用 Adam 解决 式 (6.2) 的 最 优化 问题 , 结果 如 图 6-7 所 示 。 








6-7 基于 Adam 的 最 优化 的 更 新 路 径 





在 图 6-7 中 ,， 基 于 Adam 的 更 新 过 程 就 像 小 球 在 硬 中 滚动 一 样 。 虽 然 
Momentun 也 有 类 似 的 移动 ,但 是 相 比 之 下 ，Adam 的 小 球 左右 摇晃 的 程度 
有 所 减轻 。 这 得 益 于 学 习 的 更 新 程度 被 适当 地 调整 了 。 














(D 这 里 关于 Adam 方 法 的 说 明 只 是 一 个 直观 的 说 明 ， 并 不 完全 正确 。 详 细 内 容 请 参考 原作 者 的 论文 。 
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Adam 会 设置 3 个 超 参 数 。 一 个 是 学 习 率 (论文 中 以 a 出 现 )， 另外 两 
个 是 一 次 momentum 系数 861 和 二 次 momentum 系数 6,。 根 据 论文 ， 
标准 的 设 定 值 是 61 为 0.9，Bs 为 0.999。 设 置 了 这 些 值 后 ， 大 多 数 情 
况 下 都 能 顺利 运行 。 





6.1.7 ”使 用 哪 种 更 新 方法 呢 

到 目前 为 止 ， 我 们 已 经 学 习 了 4 种 更 新 参数 的 方法 。 这 里 我 们 来 比较 一 
下 这 4 种 方法 ( 源 代码 在 ch06/optimizer_compare_naive.py 中 )。 

如 图 6-8 所 示 ， 根 据 使 用 的 方法 不 同 ， 参 数 更 新 的 路 径 也 不 同 。 只 看 这 
个 图 的 话 ，AdaGrad 似乎 是 最 好 的 ， 不 过 也 要 注意 ， 结 灯会 根据 要 解决 的 问 
题 而 变 。 并 且 , 很 显然 , 超 参 数 (学 习 率 等 ) 的 设 定 值 不 同 , 结 末 也 会 发 生变 化 。 





























































































































图 6-8 最 优化 方法 的 比较 : SGD, Momentum, AdaGrad, Adam 
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上 面 我 们 介绍 了 SGD 、Momentum 、AdaGrad 、Adam 这 4 种 方法 ,， 那 
么 用 哪 种 方法 好 呢 ? 非常 遗憾 ，( 目 前 ) 并 不 存在 能 在 所 有 问题 中 都 表现 良好 
的 方法 。 这 4 种 方法 各 有 各 的 特点 ， 都 有 各 上 自 擅长 解决 的 问题 和 不 擅长 解决 
的 问题 。 

很 多 研究 中 至 今 仍 在 使 用 SGD。Momentum 和 AdaGrad 也 是 值得 一 试 
的 方法 。 最 近 ， 很 多 人 研究 人 员 和 技术 人 员 都 喜欢 用 Adam。 本 书 将 主要 使 用 
SGD 4 Adam, 读者 可 以 根据 自己 的 喜好 多 多 尝试 。 














6.1.8 ”基于 MNIST 数据 集 的 更 新 方法 的 比较 

我 们 以 手写 数字 识别 为 例 ， 比较 前 面 介 绍 的 SGD、Momentum.、、 
AdaGrad、Adam 这 4 种 方法 ， 并 确认 不 同 的 方法 在 学 习 进 展 上 有 多 大 程度 
的 差异 。 先 来 看 一 下 结果 ， 如 图 6-9 所 示 ( 源 代码 在 ch66/optimizer_compare_ 


mnist.py rH), 








$9—9 Adam 

e—e SGD 

m—m AdaGrad 
Momentum 


iterations 





6-9 ”基于 MNIST 数据 集 的 4 种 更 新 方法 的 比较 : 横 轴 表示 学 习 的 迭代 次 数 \iteration ), 
纵 轴 表示 损失 函数 的 值 (1oss) 








这 个 实验 以 一 个 5 层 神 经 网 络 为 对 象 ， 其 中 每 屋 有 100 个 神经 元 。 激 活 
函数 使 用 的 是 ReLU。 
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从 图 6-9 的 结果 中 可 知 ， 与 SGD 相 比 ， 其 他 3 种 方法 学 习 得 更 快 ， 而且 
速度 基本 相同 ， 人 和 仔细 看 的 话 ，AdaGrad 的 学 习 进行 得 稍微 快 一 点 。 这 个 实验 
需要 注意 的 地 方 是 ， 实 验 绪 采 会 随 学 习 率 等 超 参数 、 神 经 网 络 的 结构 ( 几 层 
TRS) 的 不 同 而 发 生变 化 。 不 过 ,一 般 而 言 ， 与 SGD 相 比 ， 其 他 3 种 方法 可 
以 学 习 得 更 快 ， 有 时 最 终 的 识别 精度 也 更 高 。 














6.2 ”权重 的 初始 值 


在 神经 网 络 的 学 习 中 ， 权 重 的 初始 值 特别 重要 。 实 际 上 ， 设 定 什 么 样 的 
权重 初始 值 ， 经 常 关 系 到 神经 网 络 的 学 习 能 否 成 功 。 本 方 将 介绍 权重 初始 值 
的 推荐 值 ， 并 通过 实验 确认 神经 网 络 的 学 习 是 否 会 快速 进行 。 





6.2.1 可 以 将 权重 初始 值 设 为 0 吗 


后 面 我 们 会 介绍 抑制 过 拟 合 、 提 高 泛 化 能 力 的 技巧 一 一 权 值 衰减 (weight 
decay)。 人 简单 地 说 ， 权 值 衰减 就 是 一 种 以 减 小 权重 参数 的 值 为 目的 进行 学 习 
的 方法 。 通 过 减 小 权重 参数 的 信 来 抑制 过 拟 合 的 发 生 。 

如 有 果 想 减 小 权重 的 值 , 一 开始 就 将 初始 值 设 为 较 小 的 值 才 是 正 途 。 实 际 上 ， 
在 这 之 前 的 权重 初始 值 都 是 像 9.91 * np.random.randn(10，100) 这 样 ， 使 用 
由 高 斯 分 布 生成 的 值 乘 以 0.01 后 得 到 的 值 (标准 差 为 0.01 的 高 斯 分 布 ) 

如 果 我 们 把 权重 初始 值 全 部 设 为 0 以 减 小 权重 的 值 ， 会 怎么 样 呢 ” 从 结 
论 来 说 ,将 权重 初始 值 设 为 0 不 是 一 个 好 主意 。 事 实 上 ， 将 权重 初始 值 设 为 
0 的 话 ， 将 无 法 正确 进行 学 习 。 

为 什么 不 能 将 权重 初始 值 设 为 0 呢 ? 严格 地 说 ， 为 什么 不 能 将 权重 初始 
值 设 成 一 样 的 值 呢 ? 这 是 因为 在 误差 反 向 传播 法 中 ， 所 有 的 权重 值 都 会 进行 
相同 的 更 新 。 比 如 ， 在 2 层 神经 网 络 中 ， 假 设 第 1 层 和 第 2 层 的 权重 为 0。 这 
样 一 来 ， 正 癌 传 播 时 ， 因 为 输入 层 的 权重 为 0， 所 以 第 2 层 的 神经 元 全 部 会 
被 传递 相同 的 值 。 第 2 层 的 神经 元 中 全 部 输入 相同 的 值 ， 这 意味 着 反 向 传播 
时 第 2 层 的 权重 全 部 都 会 进行 相同 的 更 新 (回忆 一 下 “乘法 节点 的 反问 传播 ” 
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的 内 容 ) 因此 ， 权 重 被 更 新 为 相同 的 值 ， 并 拥有 了 对 称 的 值 ( 重 复 的 值 )。 
这 使 得 神经 网 络 拥有 许多 不 同 的 权重 的 意义 丧失 了 。 为 了 防止 “权重 均一 化 ” 
(严格 地 讲 ， 是 为 了 瓦解 权重 的 对 称 结构 )， 必 须 随机 生成 初始 值 。 





6.2.2 ”隐藏 层 的 激活 值 的 分 布 

观察 隐藏 层 的 激活 值 “( 激 活 函 数 的 输出 数据 ) 的 分 布 ， 可 以 获得 很 多 启 
发 。 这 里 ， 我 们 来 做 一 个 简单 的 实验 ， 观 察 权 重 初始 值 是 如 何 影 啊 隐 茂 层 的 
激活 值 的 分 布 的 。 这 里 要 做 的 实验 是 ， 回 一 个 5 层 神 经 网 络 ( 激 活 函 数 使 用 
sigmoid 函数 ) 传 入 随机 生成 的 输入 数据 ， 用 直方 图 绘制 各 层 激活 值 的 数据 分 
布 。 这 个 实验 参考 了 斯 坦 福 大 学 的 课程 CS231n P, 

进行 实验 的 源 代 人 码 在 ch96/weight init activation histogram.py F, F 
面 展示 部 分 代码 。 








import numpy as np 
import matplotlib.pyplot as plt 


def sigmoid(x): 
return 1 / (1 + np.exp(-x)) 


x = np.random.randn(1000, 100) # 1000 个 数据 


node num = 100 # 各 隐藏 层 的 节点 (神经 元 ) 数 
hidden layer size = 5 # 隐藏 屋 有 5 层 
activations = {} # 激活 值 的 结果 保存 在 这 里 


for i in range(hidden layer size): 
if i != 0: 
X = activations[i-1] 


w - np.random.randn(node num, node num) * 1 
z = np.dot(x, w) 


a = Sigmoid(z) # sigmoid 函数 
activations[i] =a 


CD 这 里 我 们 将 激活 函数 的 输出 数据 称 为 “激活 值 ”, 但 是 有 的 文献 中 会 将 在 层 之 间 流 动 的 数据 也 称 为 “ 激 
活 值 ”。 
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这 里 假设 神经 网 络 有 5 层 ， 每 层 有 100 个 神经 元 。 然 后 ， 用 高 斯 分 布 随 
机 生成 1000 个 数据 作为 输入 数据 ， 并 把 它们 传 给 5 层 神经 网 络 。 激 活 函 数 使 
用 sigmoid 函数 ， 各 层 的 激活 值 的 结果 保存 在 activations 变 量 中 。 这 个 代码 
段 中 需要 注意 的 是 权重 的 太 度 。 虽 然 这 次 我 们 使 用 的 是 标准 差 为 1 的 高 斯 分 
i, 但 实验 的 目的 是 通过 改变 这 个 尺度 (标准 差 );， 观 察 激活 值 的 分 布 如 何 变 
化 。 现 在 ,我 们 将 保存 在 activations 中 的 各 层 数 据 画 成 下 方 图 。 











# 绘制 直方 网 

for i, a in activations.items(): 
plt.subplot(1, Len(activations), i+1) 
plt.title(str(i-1) + "-layer") 
plt.hist(a.flatten(), 30, range=(0,1)) 

plt.show() 


运行 这 段 代码 后 ， 可 以 得 到 图 6-10 的 直方 图 。 
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6-10 ”使 用 标准 差 为 1 的 高 斯 分 布 作为 权重 初始 值 时 的 各 层 激活 值 的 分 布 


从 图 6-10 可 知 ， 各 层 的 激活 值 呈 仿 和 回 0 和 1 的 分 布 。 这 里 使 用 的 sigmoid 
消 数 是 S$ 型 函数 ， 随 着 输出 不 断 地 靠近 0( 或 者 罪 近 1)， 它 的 导数 的 值 逐渐 接 
近 0。 因 此 ， 俩 加 0 和 1 的 数据 分 布 会 造成 反 回 传播 中 梯度 的 值 不 断 变 小 ， 最 
后 消失 。 这 个 问题 称 为 梯度 消失 (gradient vanishing )。 层 次 加 次 的 阁 度 学 习 
中 ， 棉 度 消 失 的 问题 可 能 会 更 加 严重 。 

下 面 ， 将 权重 的 标准 差 设 为 0.01， 进 行 相同 的 实验 。 实 验 的 代码 只 需要 
把 设 定 权重 初始 值 的 地 方 换 成 下 面 的 代码 即 可 。 
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# w = np.random.randn(node num, node num) * 1 
w = np.random.randn(node num, node num) * 0.01 


来 看 一 下 结果 。 使 用 标准 差 为 0.01 的 高 斯 分 布 时 ， 各 层 的 激活 值 的 分 布 
如 图 6-11 所 示 。 
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6-11 ”使 用 标准 差 为 0.01 的 高 斯 分 布 作为 权重 初始 值 时 的 各 层 激 活 值 的 分 布 





这 次 呈 集 中 在 0.5 附 近 的 分 布 。 因 为 不 像 刚 才 的 例子 那样 俩 可 0 和 1， 所 
以 不 会 发 生 梯度 消失 的 问题 。 但 是 ， 激 活 值 的 分 布 有 所 侦 辐 ， 说 明 在 表现 力 
上 会 有 很 大 问题 。 为 什么 这 么 说 呢 ? 因为 如 果 有 多 个 神经 元 都 输出 几乎 相同 
的 值 ， 那 它们 就 没有 存在 的 意义 了 。 上 比如， 如果 100 个 神经 元 都 输出 几乎 相 
同 的 值 ， 那 么 也 可 以 由 1 个 神经 元 来 表达 基本 相同 的 事情 。 因 此 ， 激 活 值 在 
分 布 上 有 所 偏 癌 会 出 现 “ 表 现 力 受 限 ” 的 问题 。 











各 层 的 激活 值 的 分 布 都 要 求 有 适当 的 广度 。 为 什么 呢 ? 因为 通过 
在 各 层 间 传递 多 样 性 的 数据 ， 神 经 网 络 可 以 进行 高 效 的 学 习 。 反 
过 来 ， 如 果 传递 的 是 有 所 偏向 的 数据 ， 就 会 出 现 梯 度 消 失 或 者 “ 表 
现 力 受 限 ” 的 问题 ， 导 致 学 习 可 能 无 法 顺利 进行 。 








接着 , 我 们 尝试 使 用 Xavier Glorot 等 人 的 论文 “中 推荐 的 权重 初始 值 Cf 
称 “Xavier 初 始 值 ”)。 现 在 ， 在 一 般 的 深度 学 习 框 架 中 ，Xavier 初 始 值 已 被 
作为 标准 使 用 。 比 如 , Caffe 框 染 中 ,通过 在 设 定 权重 初始 值 时 赋予 xavier 参数， 
就 可 以 使 用 Xavier 初 始 值 。 

Xavier 的 论文 中 ， 为 了 使 各 层 的 激活 值 呈现 出 具有 相同 广度 的 分 布 ， 推 
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导 了 合适 的 权重 尺度 。 推 导出 的 结论 是 ， 如 末 前 一 层 的 厄 反 数 为 n， 则 初始 
值 使 用 标准 差 为 z 的 分 布 ”( 图 6-12)。 


使 用 标准 差 为 - 充 的 高 斯 分 布 进行 初始 化 





图 6-12 Xavier MMA: 与 前 一 层 有 mn 个 节点 连接 时 ， 初 始 值 使 用 标准 差 为 —— 的 分 布 





使 用 Xavier 初 始 值 后 ， 前 一 层 的 节点 数 越 多 ， 要 设 定 为 目标 节点 的 初始 
值 的 权重 尺度 就 越 小 。 现 在 ， 我 们 使 用 Xavier 初 始 值 进行 实验 。 进 行 实验 的 
代码 只 需要 将 设 定 权重 初始 值 的 地 方 换 成 如 下 内 容 即 可 (因为 此 处 所 有 层 的 
节点 数 都 是 100， 所 以 简化 了 实现 )。 








node num = 100 4 前 一 层 的 节点 数 

w = np.random.randn(node num, node num) / np.sqrt(node num) 

使 用 Xavier 初 始 值 后 的 结果 如 图 6-13 所 示 。 从 这 个 结果 可 知 ， 越 是 后 
面 的 层 ， 网 像 变 得 越 牌 和 斜 ， 但 是 呈现 了 比 之 前 更 有 广度 的 分 布 。 因 为 各 层 间 
传递 的 数据 有 适当 的 广度 ， 所 以 sigmoid 孔 数 的 表现 力 不 受 限制 ， 有 望 进行 
高 效 的 学 习 。 




















D Xavier 的 论文 中 提出 的 设 定 值 , 不 仅 考虑 了 前 一 层 的 输入 节点 数量 , 还 考虑 了 下 一 层 的 输出 节点 数量 。 
但 是 ，Caffe 等 框架 的 实现 中 进行 了 简化 ， 只 使 用 了 这 里 所 说 的 前 一 层 的 输入 节点 进行 计算 。 
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1-layer 5-layer 
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图 6-13 ”使 用 Xavier 初始 值 作为 权重 初始 值 时 的 各 层 激活 值 的 分 布 


图 6-13 的 分 布 中 ， 后 面 的 层 的 分 布 呈 稍微 至 和 斜 的 形状 。 如 果 用 tanh 

PR 2x (OX HH c PRB) RE sigmoid 函数 ， 这 个 稍微 焉 科 的 问题 就 能 得 
到 改善 。 实 际 上 ， 使 用 tanh Kk, FES BAHN MHL AA. tanh 
函数 和 sigmoid 函数 同 是 S 型 曲线 函数 ， 但 tanh 函数 是 关于 原点 (0, 0) 
对 称 的 S 型 曲线 ， 而 sigmoid Rave XT (x, y)=(0, 0.5) 对 称 的 S 型 曲 
线 。 众 所 周知 ， 用 作 激 活 函 数 的 函数 最 好 具有 关于 原点 对 称 的 性 质 。 





62.3 ReLU 的 权重 初始 值 


Xavier 初 始 值 是 以 激活 函数 是 线性 函数 为 前 提 而 推导 出 来 的 。 因 为 
sigmoid 函数 和 tanh 函数 左右 对 称 ， 且 中 央 附 近 可 以 视 作 线性 函数 ， 所 以 适 
合 使 用 Xavier 初 始 值 。 但 当 激 活 函 数 使 用 ReLU 时 ， 一 般 推 荐 使 用 ReLU 专 
用 的 初始 值 , 也 就 是 Kaiming He 等 人 推荐 的 初始 值 ， 也 称 为 “He 初始 值 ” 中。 
当前 一 层 的 节点 数 为 n 时 ，He 初 始 值 使 用 标准 差 为 V 二 的 高 斯 分 布 。 当 
Xavier 初 始 值 是 V 云 时 ，( 直 观 上 ) 可 以 解释 为 ， 因 为 ReLU 的 负 值 区 域 的 值 
为 0， 为 了 使 它 更 有 广度 ， 所 以 需要 2 倍 的 系数 。 

现在 来 看 一 下 激活 函数 使 用 ReLU 时 激活 值 的 分 布 。 我 们 给 出 了 3 个 实 
验 的 结果 (图 6-14), 依次 是 权重 初始 值 为 标准 差 是 0.01 的 高 斯 分 布 (下 文 简 
写 为 “std = 0.01”) 时 、 初 始 值 为 Xavier 初 始 值 时 、 初 始 值 为 ReLU 专 用 的 
“He 初始 值 ” 时 的 结 
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0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 


权重 初始 值 为 标准 差 是 0.01 的 高 斯 分 布 时 


0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 


权重 初始 值 为 Xavier 初始 值 时 


]-layer 2-layer 3-layer 4-]ayer 5-layer 


LLLLL 


0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1 


权重 初始 值 为 He 初始 值 时 





图 6-14 激活 函数 使 用 ReLU 时 ,不 同 权重 初始 值 的 激活 值 分 布 的 变化 


观察 实验 结果 可 知 , C4 “std = 0.01" 时 , 各 层 的 激活 值 非常 小 呈 ， 神 经 网 
络 上 传递 的 是 非常 小 的 值 ， 说 明 逆 回 传 播 时 权重 的 梯度 也 同样 很 小 。 这 是 很 
严重 的 问题 ， 实 际 上 学 习 基 本 上 没有 进展 。 





OD 各 层 激活 值 的 分 布 平均 值 如 下 。1 层 :0.0396,2 层 :0.00290,3 层 :0.000197,4 层 :1.32e-5,5 层 :9.46e-7 
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接 下 来 是 初始 值 为 Xavier 初始 值 时 的 结果 。 在 这 种 情况 下 , 随 春 层 的 加 座 ， 
(IER. Sk, Ia, OE, ARJEN ee hA 
度 消 失 的 问题 。 而 当初 始 值 为 He 初始 值 时 ， 各 层 中 分 布 的 广度 相同 。 由 于 
即便 层 加 深 , 数据 的 广度 也 能 保持 不 变 , 因此 逆 回 传播 时 , 也 会 传递 合适 的 值 。 

总 结 一 下 ， 当 激活 函数 使 用 ReLU 时 ,权重 初始 值 使 用 He 初始 值 ， 当 
激活 孙 数 为 sigmoid 或 tanh 等 S 型 曲线 函数 时 ,初始 值 使 用 Xavier 初 始 值 。 
这 是 目前 的 最 佳 实 践 。 























6.2.4 基于 MNIST 数据 集 的 权重 初始 值 的 比较 

下 面 通过 实际 的 数据 ， 观 察 不 同 的 权重 初始 值 的 赋值 方法 会 在 多 大 程度 
上 影响 神经 网 络 的 学 习 。 这 里 ， 我 们 基于 std = 0.01、Xavier 初 始 值 、He 初 
始 值 进行 实验 ( 源 代 码 在 chg6/weight_init_compare.py 中 )。 先 来 看 一 下 结 
如 图 6-15 所 示 。 





e—e std = 0.01 


E—NM Xavier 


1000 
iterations 





6-15 ”基于 MNIST 数 据 集 的 权重 初始 值 的 比较 : he SSAA RSL (iterations ), 
纵 轴 是 损失 函数 的 值 \loss ) 
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这 个 实验 中 ,神经 网 络 有 5 层 ， 每 屋 有 100 个 神经 元 ,激活 函数 使 用 的 
是 ReLU。 从 图 6-15 的 结果 可 知 ，std = 0.01 时 完全 无 法 进行 学 习 。 这 和 刚 
才 观 察 到 的 激活 值 的 分 布 一 样 ， 是 因为 正 回 传播 中 传递 的 值 很 小 (集中 在 0 
附近 的 数据 )。 因 此 ， 逆 加 传播 时 求 到 的 梯度 也 很 小 ， 权 重 几 乎 不 进行 更 新 。 
相反 ， 当 权重 初始 值 为 Xavier 初 始 什 和 He 初始 值 时 ， 学 习 进 行 得 很 顺利 。 
并 且 ， 我 们 发 现 He 初 始 信 时 的 学 习 进 度 更 快 一 些 。 

综 上 ， 在 神经 网 络 的 学 习 中 ， 权 重 初 始 值 非常 重要 。 很 多 时 候 权 重 初 始 
值 的 设 定 关系 到 神经 网 络 的 学 习 能 否 成 功 。 权 重 初 始 值 的 重要 性 容易 被 忽视 ， 
而 任何 事情 的 开始 (初始 值 ) 总 是 关键 的 ， 因 此 在 结束 本 市 之 际 ， 再 次 强调 
一 下 权重 初始 值 的 重要 性 。 



































6.3 Batch Normalization 








在 上 一 节 ， 我 们 观察 了 各 层 的 激活 值 分 布 ， 并 从 中 了 解 到 如 有 果 设 定 了 合 
的 权重 初始 值 ， 则 各 层 的 激活 值 分 布 会 有 适当 的 广度 ， 从 而 可 以 顺利 地 进 
了 学 习 。 那 么 ,为 了 使 各 层 拥 有 适当 的 广度 ,“ 强 制 性 ” 地 调整 激活 值 的 分 布 

怎样 呢 ? 实际 上 ，Batch Normalization 方 法 就 是 基于 这 个 想法 而 产生 的 。 


N 





nh 





> D g 


6.3.1 Batch Normalization #6; 


Batch Normalization ( F X fiij # Batch Norm) 是 2015 年 提出 的 方法 。 
Batch Norm 虽然 是 一 个 问世 不 久 的 新 方法 ， 但 已 经 被 很 多 研究 人 员 和 技术 
人 员 广 泛 使 用 。 实 际 上 ， 看 一 下 机 融 学 习 竞 赛 的 结果 ， 就 会 发 现 很 多 通过 使 
用 这 个 方法 而 获得 优异 结果 的 例子 。 

HITA Batch Norm 这 么 若 人 注目 呢 ? KX Batch Norm 有 以 下 优点 。 








e 可 以 使 学 习 快 速 进行 (可 以 增 大 学 习 率 )。 
© 不 那么 依赖 初始 值 (对 于 初始 值 不 用 那么 神经 质 )。 
e 抑制 过 拟 合 (降低 Dropout 等 的 必要 性 )。 
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考虑 到 深度 学 习 要 花费 很 多 时 间 ， 第 一 个 优点 令 人 非 第 开心。 为 外 ,后 
两 点 也 可 以 帮 我 们 消除 深度 学 习 的 学 习 中 的 很 多 烦恼 。 
如 前 所 述 ，Batch Norm 的 思路 是 调整 各 层 的 激活 值 分 布 使 其 拥有 适当 

















的 广度 。 为 此 ， 要 向 神经 网 络 中 插入 对 数据 分 布 进行 正规 化 的 屋 ， 即 Batch 
Normalization 层 (下 文 简称 Batch Norm 层 )， 如 图 6-16 所 示 。 





6-16 {FAS Batch Normalization 的 神经 网 络 的 例子 (Batch Norm 层 的 背景 为 灰色 ) 


Batch Norm， 顾 名 思 义 ， 以 进行 学 习 时 的 mini-batch 为 单位 ， 按 mini- 
batch 进行 正规 化 。 具 体 而 言 ， 就 是 进行 使 数据 分 布 的 均值 为 0、 方 差 为 1 的 
正规 化 。 用 数学 式 表示 的 话 ， 如 下 所 示 。 








8 和 一 YG: = uB) (6.7) 


这 里 对 mini-batch 的 m 个 输入 数据 的 集合 B= (zi gs , Em pR E 
LB 和 方差 ob 。 然 后 ， 对 输入 数据 进行 均值 为 0、 方 差 为 1( 合 适 的 分 布 ) 的 
正规 化 。 式 (6.7) 中 的 = 是 一 个 微小 值 ( 比 如 ，1l9e-7 等 )， 它 是 为 了 防止 出 现 
除 以 0 的 情况 。 

式 (6.7) 所 做 的 是 将 mini-batch 的 输入 数据 {zi 22, ,2 变换 为 均值 


186 | 第 6 章 与 学 习 相 关 的 技巧 


为 0、 方 差 为 1 的 数据 {£1, 22,.… ,zx}， 非 常 简单 。 通 过 将 这 个 处 理 插入 到 
激活 函数 的 前 面 ( 或 者 后 面 ) 了 ， 可 以 减 小 数据 分 布 的 偏向 。 

接着 ，Batch Norm 层 会 对 正规 化 后 的 数据 进行 缩放 和 平移 的 变换 ， 用 
数学 式 可 以 如 下 表示 。 


yi — yi +8 (6.8) 
这 里 ，Y 和 6 是 参数 。 一 开始 Y= 1，6 = 0， 然后 再 通过 学 习 调 整 到 合 
适 的 值 。 
上 面 就 是 Batch Norm 的 算法 。 这 个 算法 是 神经 网 络 上 的 正 回 传播 。 如 
果 使 用 第 5 章 介绍 的 计算 图 ，Batch Norm 可 以 表示 为 图 6-17。 





6-17 Batch Normalization 的 计算 图 (引用 自 文献 [13] ) 


Batch Norm 的 反 回 传播 的 推导 有 些 复杂 ， 这 里 我 们 不 进行 介绍 。 不 过 
E E E 
轻松 地 推导 出 来 。Frederik Kratzert AY B 7€ “Understanding the backward 
pass through Batch Normalization Layer” 吧 里 有 详细 说 明 ， 感 兴趣 的 读者 
可 以 参考 一 下 。 


6.3.2 Batch Normalization 的 评估 


现在 我 们 使 用 Batch Norm 层 进行 实验 。 前 和 完 , 使 用 MNIST 数 据 集 ， 


(D 文献 [11]、 文 献 [112] 等 中 有 讨论 (做 过 实验 ) 应 该 把 Batch Normalization 插 人 到 激活 函数 的 前 面 还 是 
后 面 。 
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观察 使 用 Batch Norm 层 和 不 使 用 Batch Norm 层 时 学 习 的 过 程 会 如 何 变化 ( 源 
代码 在 ch06/batch norm _ test.py 中 )， 结 果 如 图 6-18 所 示 。 


Training Accuracy 


= 
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一 
Do 


= 
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~ | — Batch Normalization 
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图 6-18 基于 Batch Norm 的 效果 : 使 用 Batch Norm 后， 学 习 进 行 得 更 快 了 








从 图 6-18 的 结果 可 知 ， 使 用 Batch Norm 后 ， 学 习 进 行 得 更 快 了 。 接 着 ， 
给 予 不 同 的 初始 值 太 度 ， 观 察 学 习 的 过 程 如 何 变化 。 图 6-19 是 权重 初始 值 的 
标准 差 为 各 种 不 同 的 值 时 的 学 习 过 程 图 。 

我 们 发 现 ， 儿 乎 所 有 的 情况 下 部 是 使 用 Batch Norm 时 学 习 进 行 得 更 快 。 
同时 也 可 以 发 现 ， 实 际 上 ， 在 不 使 用 Batch Norm 的 情况 下 ， 如 果 不 赋予 一 
个 尺度 好 的 初始 值 ， 学 习 将 完全 无 法 进行 。 

综 上 ,通过 使 用 Batch Norm， 可 以 推动 学 习 的 进行 。 并且， 对 权重 初 
始 值 变 得 健壮 (“对 初始 值 健壮 ” 表示 不 那么 依赖 初始 值 )。Batch Norm 具备 
了 如 此 优良 的 性 质 ， 一 定 能 应 用 在 更 多 场合 中 。 
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w:0.541169526546 w:0.292864456463 w:0.158483319246 


accuracy 


w:0.0464158883361 w:0.0251188643151 w:0.0125935639088 


accuracy 


w:0.0073564225446 w:0.00398107170553 w:0.00215443469003 w:0.00116591440118 


m 
® 
= 
o 
Q 
® 














w:0.00063095734448 w:0.000341454887383 w:0.000184784979742 w:0.0001 


accuracy 














10 
epochs 





6-19 中 的 实 线 是 使 用 了 Batch Norm 时 的 结果 ， 虚 线 是 没有 使 用 Batch Norm 时 
的 结果 : 图 的 标题 处 标明 了 权重 初始 值 的 标准 差 


6.4 正则 化 


机 融 尝 习 的 问题 中 ， 过 拟 合 是 一 个 很 冲 见 的 问题 。 过 拟 合 指 的 是 只 能 拟 
合 训练 数据 ， 但 不 能 很 好 地 拟 合 不 包含 在 训练 数据 中 的 其 他 数据 的 状态 。 机 
售 学 习 的 上 日 标 是 提高 沁 化 能 力 ， 即 便 是 没有 包含 在 训练 数据 里 的 未 观测 数据 ， 
也 希望 模型 可 以 进行 正确 的 识别 。 我 们 可 以 制作 复杂 的 、 表 现 力 强 的 模型 ， 
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但 是 相应 地 ， 抑 制 过 拟 合 的 技巧 也 很 重要 。 


6.4.1 WHE 


发 生 过 拟 合 的 原因 ， 主 要 有 以 下 两 个 。 


e 模型 拥有 大 量 参数 、 表 现 力 强 。 
e 训练 数据 少 。 


这 里 , 我 们 故意 满足 这 两 个 条 件 , 制造 过 拟 合 现象 。 为 此 ,要 从 
MNIST 数 据 集 原 本 的 60000 个 训 haia 选 定 300 个 ， 并 且 ， 为 了 增加 网 
络 的 复杂 度 ， 使 用 7 层 网 络 ( 每 层 有 100 个 神经 元 ， 激 活 函 数 为 ReLU)。 

下 面 是 用 于 实验 的 部 分 代码 (对 应 文件 在 ch06/overfit_weight_decay.py 
中 ) 首先 是 用 于 读 和 数据 的 代码 。 























(x train, t train), (x test, t test) = load mnist(normalize=True) 
# 为 了 再 现 过 拟 合 ， 减 少 学 习 数 据 

x train = x train[:300] 

t train = t train[:300] 





接着 是 进行 训练 的 代码 。 和 之 前 的 代码 一 样 ， 按 epoch 分 别 算出 所 有 训 
练 数据 和 所 有 测试 数据 的 识别 精度 。 





network = MultiLayerNet(input size-784, hidden size list-[100, 100, 100, 
100, 100, 100], output size-10) 
optimizer = SGD(lr-z0.01) # 用 学 习 率 为 0.01 的 SGD 更 新 参数 


max epochs = 201 
train size = x train.shape[0] 
batch size = 100 


train loss list = [] 
train acc list = [] 
test acc list - [] 


iter per epoch - max(train size / batch size, 1) 
epoch cnt - 0 


for i in range(1000000000) : 
batch mask = np.random.choice(train size, batch size) 
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x batch = x train[batch mask] 
t batch = t_train[batch mask] 


grads = network.gradient(x batch, t batch) 
optimizer.update(network.params, grads) 


if i % iter per epoch == 
train acc = network.accuracy(x train, t train) 
test acc - network.accuracy(x test, t test) 
train acc list.append(train acc) 
test acc list.append(test acc) 


epoch cnt += 1 
if epoch cnt >= max epochs: 
break 


train acc list filtest_acc list PUL epoch 为 单位 (看 完了 所 有 训练 数据 
的 单位 ) 保 存 识别 精度 。 现 在 ， 我 们 将 这 些 列表 (train_acc_List、test_acc_ 
list) 绘 成 图 ， 结 果 如 图 6-20 所 示 。 
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6-20 “训练 数据 (train) 和 测试 数据 \test) 的 识别 精度 的 变化 
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过 了 100 个 epoch 左 右 后 , 用 训练 数据 测量 到 的 识别 精度 几乎 都 为 
100%。 但 是 ， 对 于 测试 数据 ， 离 100% 的 识别 精度 还 有 较 大 的 差距 。 如 此 大 
的 识别 精度 差距 ， 是 只 拟 合 了 训练 数据 的 结 采 。 从 图 中 可 知 ， 模 型 对 训练 时 
没有 使 用 的 一 般 数 据 (测试 数据 ) 拟 合 得 不 是 很 好 。 

















642 ES 

权 值 衰减 是 一 直 以 来 经 常 被 使 用 的 一 种 抑制 过 拟 合 的 方法 。 该 方法 通过 
在 学 习 的 过 程 中 对 大 的 权重 进行 惩罚 ， 来 抑制 过 拟 合 。 很 多 过 拟 合 原本 就 是 
因为 权重 参数 取 值 过 大 才 发 生 的 。 
复习 一 下 ， 神 经 网 络 的 学 习 目 的 是 减 小 损失 函数 的 值 。 这 时 ， 例 如 为 
失 函 数 加 上 权重 的 平方 范 数 (1L2 范 数 )。 这样 一 来 ， 就 可 以 抑制 权重 变 大 。 
用 符号 表示 的 话 ， 如 果 将 权重 记 为 W，L2 范 数 的 权 值 衰 减 就 是 AW?， 然 
后 将 这 个 4AVW? 加 到 损失 函数 上 。 这 里 ， 和 是 控制 正则 化 强度 的 超 参数 。 和 
设置 得 越 大 ， 对 大 的 权重 施加 的 惩罚 就 越 重 。 此 外 ， LAW? 开头 的 志 是 用 于 
ft LAW? 的 求 导 结果 变 成 MW 的 调整 用 常量 。 

对 于 所 有 权重 ， 权 值 衰 减 方法 都 会 为 损失 函数 加 上 了 AW?。 因 此 ， 在 求 权 
重 梯度 的 计算 中 ， 要 为 之 前 的 误差 反 向 传播 法 的 结果 加 上 正则 化 项 的 导数 AVI 


` 





损 




















L2 泥 数 相 当 于 各 个 元 素 的 平方 和 。 用 数学 陈 表示 的 话 ， 假 设 有 权重 
W = (onto Un， 则 L2 范 数 可 用 ww2 +w24+---+w2 计算 
出 来 。 除 了 L2 范 数 ， 还 有 L1 范 数 、L ~% 范 数 等 。L1 范 数 是 各 个 元 
素 的 绝对 值 之 和 ， 相 当 于 |w| + [wo] +--- 十 |usl。Le 范 数 也 称 为 
Max 范 数 ， 相 当 于 各 个 元 素 的 绝对 值 中 最 大 的 那 一 个 。L2 范 数 、L1 
范 数 、L% 范 数 都 可 以 用 作 正 则 化 项 ， 它 们 各 有 各 的 特点 ， 不 过 这 里 
我 们 要 实现 的 是 比较 常用 的 L2 范 数 。 








现在 我 们 来 进行 实验 。 对 于 刚刚 进行 的 实验 ， 应 用 入 = 0.1 AE EI, 
结 采 如 图 6-21 所 示 ( 对 应 权 值 衰减 的 网 络 在 common/multi_layer_net.py 中 ， 
用 于 实验 的 代码 在 ch06/overfit weight decay.py 中 )。 
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6-21 ”使 用 了 权 值 衰减 的 训练 数据 (train ) 和 测试 数据 (test ) 的 识别 精度 的 变化 


如 图 6-21 所 示 ， 里 然 训 练 数据 的 识别 精度 和 测试 数据 的 识别 精度 之 间 有 
差距 ,但 是 与 没有 使 用 权 值 衰减 的 图 6-20 的 结果 相 比 ， 差 距 变 小 了 。 这 说 明 
过 拟 合 受到 了 抑制 。 此 外 , 还 要 注意 , 训练 数据 的 识别 精度 没有 达到 100% (1.0)。 








6.4.3 Dropout 


作为 抑制 过 拟 合 的 方法 ， 前 面 我 们 介绍 了 为 损失 也 数 加 上 权重 的 L2 范 
数 的 权 值 衰减 方法 。 该 方法 可 以 简单 地 实现 ， 在 某 种 程度 上 能 够 抑制 过 拟 合 。 
但 是 ， 如 果 网 络 的 模型 变 得 很 复杂 ， 只 用 权 值 衰减 就 难以 应 对 了 。 在 这 种 情 
AF, RIAA SEN Dropout 方法。 

Dropout 是 一 种 在 学 习 的 过 程 中 随机 删除 神经 元 的 方法 。 训 练 时 ， 随 机 
选 出 隐藏 层 的 神经 元 ， 然 后 将 其 删除 。 被 删除 的 神经 元 不 再 进行 信号 的 传递 ， 
如 图 6-22 所 示 。 训 练 时 ， 每 传递 一 次 数据 ， 就 会 随机 选择 要 删除 的 神经 元 。 
然后 ,测试 时 ,虽然 会 传递 所 有 的 神经 元 信号 ,但 是 对 于 各 个 神经 元 的 输出 ， 
要 乘 上 训练 时 的 删除 比例 后 再 输出 。 
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ye 


(a) Standard Neural Net 





6-22 ”Dropout 的 概念 图 (引用 自 文献 [14): 左边 是 一 般 的 神经 网 络 ， 右 边 是 应 用 了 
Dropout 的 网 络 。Droponut 通过 随机 选择 并 删除 神经 元 ， 停 止 向 前 传递 信号 


下 面 我 们 来 实现 Dropout。 这 里 的 实现 重视 易 理 解 性 。 不 过 ， 因 为 训练 
时 如 采 进 行 恰当 的 计算 的 话 ， 正 回 传 播 时 单纯 地 传递 数据 就 可 以 了 (不 用 乘 
以 柚 除 比例 )， 所 以 深度 学 习 的 框架 中 进行 了 这 样 的 实现 。 关 于 高 效 的 实现 ， 
可 以 参考 Chainer 中 实现 的 Dropout。 








class Dropout: 
def init (self, dropout ratio=0.5): 
self.dropout ratio = dropout ratio 
self.mask = None 


def forward(self, x, train flg-True): 
if train flg: 
self.mask - np.random.rand(*x.shape) » self.dropout ratio 
return x * self.mask 
else: 
return x * (1.0 - self.dropout ratio) 
def backward(self, dout): 


return dout * self.mask 


这 里 的 要 点 是 ,每 次 正 向 传播 时 ，self.mask 中 都 会 以 False 的 形式 保 
存 要 删除 的 神经 元 。self.mask 会 随机 生成 和 x 形状 相同 的 数组 ， 并 将 值 比 
dropout_ratio 大 的 元 率 设 为 True。 反 加 传播 时 的 行为 和 ReLU 相同 。 也 就 是 说 ， 
正 向 传播 时 传递 了 信号 的 神经 元 ， 反 向 传播 时 按 原样 传递 信号 ; 正 向 传播 时 
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没有 传递 信号 的 神经 元 ， 反 向 传播 时 信号 将 停 在 那里 。 
现在 ， 我 们 使 用 MNIST 数 据 集 进 行 验证 ， 以 确认 Droponut 的 效果 。 源 代 
码 在 chg6/overfit_ dropout ,py 中 。 另 外 , 源 代 码 中 使 用 了 Trainer 类 来 简化 实现 。 





common/trainer.py 中 实现 了 Trainer 类 。 这 个 类 可 以 负责 前 面 所 
进行 的 网 络 的 学 习 。 详 细 内 容 可 以 参照 common/trainer.py 和 ch06/ 


overfit dropout.py, 








Dropout 的 实验 和 前 面 的 实验 一 样 ， 使 用 7 层 网 络 (每 层 有 100 个 神经 元 ， 
激活 函数 为 ReLU)， 一 个 使 用 Dropout， 另 一 个 不 使 用 Dropout ， 实 验 的 结 
果 如 图 6-23 所 示 。 





accuracy 
accuracy 


150 
epochs epochs 





6-23 ”左边 没有 使 用 Dropout， 右 边 使 用 了 Dropout (dropout_rate=0.15 ) 





图 6-23 中 ,通过 使 用 Dropout， 训 练 数据 和 测试 数据 的 识别 精度 的 差距 
变 小 了 。 并 且 ,， 训 练 数据 也 没有 到 达 100 儿 的 识别 精度 。 像 这 样 ， 通 过 使 用 
Dropout ， 即 便 是 表现 力 强 的 网 络 ， 也 可 以 抑制 过 拟 合 。 





机 妖 学 习 中 经 常 使 用 集成 学 习 。 所 谓 集成 学 习 ， 就 是 让 多 个 模型 单 
独 进 行 学 习 ， 推 理 时 再 取 多 个 模型 的 输出 的 平均 值 。 用 神经 网 络 的 
语 境 来 说 ， 比 如 ， 准 备 5 个 结构 相同 (或 者 类 似 ) 的 网 络 ， 分 别 进行 
学 习 , 测试 时 , 以 这 5 个 网 络 的 输出 的 平均 值 作为 答案 。 实 验 告诉 我 们 ， 
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通过 进行 集成 学 习 ， 神 经 网 络 的 识别 精度 可 以 提高 好 几 个 百分点 。 

这 个 集成 学 习 与 Dropout 有 密切 的 关系 。 这 是 因为 可 以 将 Dropout 
理解 为 ， 通 过 在 学 习 过 程 中 随机 删除 神经 元 ， 从 而 每 一 次 都 让 不 同 
的 模型 进行 学 习 。 并 且 ， 推 理 时 ， 通 过 对 神经 元 的 输出 乘 以 删除 比 
例 ( 比 如 ，0.5 等 )， 可 以 取得 模型 的 平均 值 。 也 就 是 说 ， 可 以 理解 成 ， 
Dropout 将 集成 学 习 的 效果 (模拟 地 ) 通 过 一 个 网 络 实 现 了 。 


6.5 ”起 参数 的 验证 


神经 网 络 中 ， 除 了 权重 和 偏 置 等 参数 ， 超 参数 (hyper-parameter ) 也 经 
党 出 现 。 这 里 所 说 的 超 参 数 是 指 ， 比 如 各 层 的 神经 元 数量 、batch 大 小 、 参 
数 更 新 时 的 学 习 率 或 权 值 衰减 等 。 如 采 这 些 超 参数 没有 设置 合适 的 值 ， 模 型 
的 性 能 就 会 很 差 。 虽然 超 参 数 的 取 值 非常 重要 ,但 是 在 决定 超 参 数 的 过 程 中 
一 般 会 伴随 很 多 的 试 错 。 本 方 将 介绍 尽 可 能 高 效 地 寻找 超 参数 的 值 的 方法 。 














6.5.1 ”验证 数据 


之 前 我 们 使 用 的 数据 集 分 成 了 训练 数据 和 测试 数据 ， 训 练 数据 用 于 学 习 ， 
测试 数据 用 于 评 佑 泛 化 能 力 。 由 此 ， 就 可 以 评 人 是 否 只 过 度 拟 合 了 训练 数据 
(是 否 发 后 了 过 拟 合 )， 以 及 泛 化 能 力 如 何等 。 

P 面 我 们 要 对 超 参 数 设置 各 种 各 样 的 值 以 进行 验证 。 这 里 要 注意 的 是 ， 
不 能 使 用 测试 数据 评 佑 超 参 数 的 性 能 。 这 一 点 非常 重要 ， 但 也 容易 被 忽视 。 

为 什么 不 能 用 测试 数据 评 佑 超 参 数 的 性 能 呢 ? 这 是 因为 如 采 使 用 测试 数 
据 调整 超 参数 ， 超 参数 的 值 会 对 测试 数据 发 生 过 拟 合 。 换 名 话说， 用 测试 数 
据 确 认 超 参数 的 值 的 “好 坏 ”， 就 会 导致 超 参数 的 值 被 调整 为 只 拟 合 测试 数据 。 
这 样 的 话 ， 可 能 就 会 得 到 不 能 拟 合 其 他 数据 、 泛 化 能 力 低 的 模型 。 

因此 ， 调 整 超 参 数 时 ， 必 须 使 用 超 参数 专用 的 确认 数据 。 用 于 调整 超 参 
数 的 数据 ， 一 般 称 为 验证 数据 (validation data)。 我 们 使 用 这 个 验证 数据 来 
评 佑 超 参 数 的 好 坏 。 
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训练 数据 用 于 参数 (权重 和 偏 置 ) 的 学 习 ， 验 证 数据 用 于 超 参 数 的 性 
能 评估 。 为 了 确认 泛 化 能 力 ， 要 在 最 后 使 用 ( 比较 理想 的 是 只 用 一 次 】 
测试 数据 。 





根据 不 同 的 数据 集 ， 有 的 会 事先 分 成 训练 数据 、 验 证 数据 、 测 试 数据 三 
分 ， 有 的 只 分 成 训练 数据 和 测试 数据 两 部 分 ， 有 的 则 不 进行 分 割 。 在 这 种 
情况 下 ， 用 户 需 要 上 自行 进行 分 割 。 如 有 果 是 MNIST 数 据 集 ， 获 得 验证 数据 的 
最 傈 单 的 方法 就 是 从 训练 数据 中 事先 分 割 20% 作 为 验证 数据 ,代码 如 下 所 示 。 


部 











(x train, t train), (x test, t test) = load mnist() 


# 打 乱 训练 数据 


x train, t train = shuffle dataset(x train, t train) 


# 分 割 验证 数据 
validation rate = 0.20 
validation num = int(x train.shape[0] * validation rate) 


x val = x train[:validation num] 
t val = t train[:validation num] 
x train = x train[validation num:] 
t train = t train[validation num:] 


这 里 ， 分 割 训练 数据 前 ， 先 打 乱 了 输入 数据 和 教师 标签 。 这 是 因为 数据 
集 的 数据 可 能 存在 俩 回 ( 比 如 ， 数 据 从 “0 ”到 “10” 按 顺序 排列 等 ) 这 里 使 
FAR) shuffle dataset pK 2 Al] FY f np.random.shuffle, TE common/util.py 中 有 
它 的 实现 。 

接 下 来 ， 我 们 使 用 验证 数据 观察 超 参数 的 最 优化 方法 。 


6.5.2” 超 参数 的 最 优化 

进行 超 参 数 的 最 优化 时 , 逐渐 缩小 超 参 数 的 “好 值 ”的 存在 范围 非常 重要 。 
所 谓 逐 渐 编 小 范围 ， 是 指 一 开始 匈 大 致 设 定 一 个 犯 围 ， 从 这 个 范围 中 随机 选 
出 一 个 超 参 数 ( 采 样 )， 用 这 个 采样 到 的 值 进行 识别 精度 的 评 佑 ; 然后 ， 多 次 
重复 该 操作 , 观察 识别 精度 的 结果 , 根据 这 个 结 来 缩小 超 参数 的 “好 值 ” 的 范围 。 
通过 重复 这 一 操作 ， 就 可 以 逐渐 确定 超 参数 的 合适 范围 。 
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有 报告 ”显示 ， 在 进行 神经 网 络 的 超 参 数 的 最 优化 时 ， 与 网 格 搜 索 
等 有 规律 的 搜索 相 比 ， 随 机 采样 的 搜索 方式 效果 更 好 。 这 是 因为 在 
多 个 超 参 数 中 ， 各 个 超 参 数 对 最 终 的 识别 精度 的 影响 程度 不 同 。 


` 


超 参 数 的 范围 只 要 “大 致 地 指定 ”就 可 以 了 。 所 谓 “ 大 致 地 指定 "， 是 指 
13 0.001 (10 7) 3] 1000 (10°) 这样 ,以 “10 的 阶乘 ”的 尺度 指定 范围 (也 表述 
为 “用 对 数 尺度 (log scale) 指定 ”)。 

在 超 参数 的 最 优化 中 ， 要 注意 的 是 次 度 学 习 需 要 很 长 时 间 ( 比 如 ， 几 天 
或 几 周 )。 因 此 , 在 超 参数 的 搜索 中 ,需要 尽早 放弃 那些 不 符合 逻辑 的 超 参 数 。 
于 是 ， 在 超 参 数 的 最 优化 中 ， 减 少 学 习 的 epoch ， 缩 短 一 次 评估 所 需 的 时 间 
是 一 个 不 错 的 办 法 。 

以 上 就 是 超 参 数 的 最 优化 的 内 容 ， 人 简单 归纳 一 下 ， 如 下 所 示 。 

















从 设 定 的 超 参 数 范 围 中 随机 采样 。 


步骤 2 


使 用 步骤 1 中 采样 到 的 超 参 数 的 值 进行 学 习 ， 通 过 验证 数据 评估 识别 精 
上 度 ( 但 是 要 将 epoch 设置 得 很 小 ) 


重复 步骤 1 和 步骤 2(100 次 等 )， 根据 它们 的 识别 精度 的 结果 ， 缩 小 超 参 
数 的 范围 。 








该 范围 中 选 出 一 个 超 参数 的 值 。 这 束 是 进行 超 参数 的 最 优化 的 一 种 方法 。 
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这 里 介绍 的 超 参数 的 最 优化 方法 是 实践 性 的 方法 。 不 过 ， 这 个 方 
法 与 其 说 是 科学 方法 ， 倒 不 如 说 有 些 实 践 者 的 经 验 的 感觉 。 在 超 
参数 的 最 优化 中 ， 如 果 需 要 更 精炼 的 方法 ， 可 以 使 用 贝 叶 斯 最 优 
化 (Bayesian optimization), 贝 叶 斯 最 优化 运用 以 贝 叶 斯 定理 为 中 
心 的 数学 理论 ， 能够 更 加 严密 、 高 效 地 进行 最 优化 。 详 细 内 容 请 
参 考 论 x “Practical Bayesian Optimization of Machine Learning 
Algorithms”! 4& 





6.5.3 ” 超 参 数 最 优化 的 实现 

现在 ,我 们 使 用 MNIST 数 据 集 进行 超 参数 的 最 优化 。 这 里 我 们 将 学 习 
率 和 控制 权 值 衰减 强度 的 系数 (下 文 称 为 “ 权 值 衰减 系数 ”) 这 两 个 超 参 数 的 
搜索 问题 作为 对 象 。 这 个 问题 的 设 定 和 解决 思路 参考 了 斯 坦 福 大 学 的 课程 
“CS231n”。 

如 前 所 述 , 通过 从 0.001(10) 到 1000(105) 这 样 的 对 数 尺度 的 范围 
中 随机 采样 进行 超 参 数 的 验证 。 这 在 Python 中 可 以 写成 16 ** np. random. 
uniform(-3，3)。 在 该 实验 中 ， 权 值 误 减 系数 的 初始 范围 为 10 8] 1077, ^ 
习 率 的 初始 范围 为 10” 到 10“。 此 时 ， 超 参数 的 随机 采样 的 代码 如 下 所 示 。 





weight decay = 10 ** np.random.uniform(-8, -4) 
lr = 10 ** np.random.uniform(-6, -2) 


像 这 样 进 行 随 机 采样 后 ， 再 使 用 那些 值 进行 学 习 。 之 后 ， 多 次 使 用 各 种 
超 参数 的 值 重复 进行 学 习 ， 观 察 合乎 逻辑 的 超 参数 在 哪里 。 这 里 省 略 了 具体 
实现 ， 只 列 出 了 结 末 。 进 行 超 参数 最 优化 的 源 代 码 在 ch96/hyperparameter - 
optimization.py 中 ， 请 大 家 自由 参考 。 

下 面 我 们 就 以 权 值 衰 减 系 数 为 10 到 10”、 学 习 率 为 10” 到 10 一 的 范围 
进行 实验 ， 结 果 如 图 6-24 所 示 。 
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16-24 ” 实 线 是 验证 数据 的 识别 精度 ， 虚 线 是 训练 数据 的 识别 精度 


图 6-24 中 ， 按 识别 精度 从 高 到 低 的 顺序 排列 了 验证 数据 的 学 习 的 变化 。 
从 图 中 可 知 ， 直 到 “Best-5” 左 右 ， 学 习 进 行 得 部 很 顺利 。 因 此 ， 我 们 来 
观察 一 下 “Best-5” 之 前 的 超 参 数 的 值 (学 习 率 和 权 值 喜 减 系数 )， 结 果 如 下 
B o 








Best-1 (val acc:0. 
Best-2 (val acc:0. 


0.83) 1r:0.0092, weight decay:3.86e-07 
0.78) 
Best-3 (val acc:0.77) 
0.74) 
0.73) 


| 

| 1r:0.00956, weight decay:6.04e-07 

| 1r:0.00571, weight decay:1.27e-06 
Best-4 (val acc:0. | 
Best-5 (val acc:0. | 


1r:0.00626, weight decay:1.43e-05 
1r:0.0052, weight decay:8.97e-06 


从 这 个 结果 可 以 看 出 ,学习 率 在 0.001 到 0.01、 权 值 误 减 系数 在 10 飞 到 
10“ 之 间 时 ， 学 习 可 以 顺利 进行 。 像 这 样 ， 观 察 可 以 使 学 习 顺 利 进 行 的 超 参 
数 的 范围 ， 从 而 缩小 值 的 范围 。 然 后 ,在 这 个 缩小 的 范围 中 重复 相同 的 操作 。 
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这 样 就 能 缩小 到 合适 的 超 参数 的 存在 范围 ， 然 后 在 某 个 阶段 ， 选 择 一 个 最 终 
的 超 参 数 的 值 。 


6.6 ”小 结 


本 草 我 们 介绍 了 神经 网 络 的 学 习 中 的 几 个 重要 技巧 。 参 数 的 更 新 方法 、 
权重 初始 值 的 赋值 方法 、Batch Normalization, Dropout 等 ， 这 些 都 是 现代 
神经 网 络 中 不 可 或 缺 的 技术 。 另 外 ， 这 里 介绍 的 技巧 ， 在 最 先进 的 深度 学 习 
中 也 被 频繁 使 用 。 


本 章 所 学 的 内 容 
参数 的 更 新 方法 ,除了 SGD 之 外 , 还 有 Momentum、AdaGrad、 
Adam 等 方法 。 
权重 初始 值 的 赋值 方法 对 进行 正确 的 学 习 非 常 重要 。 


作为 权重 初始 值 ，Xavier 初始 值 、He 初 始 值 等 比较 有 效 。 

通过 使 用 Batch Normalization， 可 以 加 速 学 习 ， 并 且 对 初始 值 变 得 
健壮 。 

抑制 过 拟 合 的 正则 化 技术 有 权 值 衰减 、Dropout 等 。 

逐渐 缩小 “好 值 ”存在 的 范围 是 搜索 超 参 数 的 一 个 有 效 方 法 。 





第 7 章 
卷 积 神 经 网 络 


本 章 的 主题 是 卷 积 神经 网 络 (Convolutional Neural Network, CNN), 
CNN 被 用 于 图 像 识别 、 语 音 识别 等 各 种 场合 ， 在 图 像 识 别 的 比赛 中 ， 基 于 
深度 学 习 的 方法 几乎 都 以 CNN 为 基础 。 本 章 将 详细 介绍 CNN 的 结构 ， 并 用 
Python 实现 其 处 理 内 容 。 





首先 , 来 看 一 下 CNN 的 网 络 结 构 ， 了 解 CNN 的 大 致 框架 。CNN 和 之 
前 介绍 的 神经 网 络 一 样 ， 可 以 像 乐 高 积木 一 样 通过 组 装 层 来 构建 。 不 过 ， 
CNN 中 新 出 现 了 卷 积 层 (Convolution 层 ) 和 池 化 层 (Pooling 层 )。 卷 积 层 和 
池 化 层 将 在 下 一 方 详细 介绍 ， 这 里 我 们 先 看 一 下 如 何 组 痰 层 以 构建 CNN。 

之 前 介绍 的 神经 网 络 中 ， 相 邻 层 的 所 有 神经 元 之 间 都 有 连接 ， 这 称 为 全 
连接 (fully-connected)。 男 外 ,我们 用 Affne 层 实现 了 全 连接 层 。 如 果 使 用 
这 个 AfBne 层 ,一 个 5 层 的 全 连接 的 神经 网 络 就 可 以 通过 图 7-1 所 示 的 网 络 结 
构 来 实现 。 

如 图 7-1 所 示 ， 全 连接 的 神经 网 络 中 ，A 生 ne 层 后 面 跟着 激活 函数 ReLU 
层 ( 或 者 Sigmoid jz), xx YES J 4 “Affine ReLU” 组合， 然后 第 5 层 是 
A 和 ne 层 ， 最 后 由 Softmax 层 输出 最 终结 果 (概率 )。 
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Affine ReLU Affine ReLU Affine ReLU Affine ReLU Affine Softmax 





图 7-1 基于 全 连接 层 (Affhine 层 ) 的 网 络 的 例子 


那么 ，CNN 会 是 什么 样 的 结构 呢 ? 图 7-2 是 CNN 的 一 个 例子 。 


Conv H ReLU | Pooling Conv H ReLU = Pooling Conv 7 ReLU Affine ReLU Affine ++ Softmax 





图 7-2 基于 CNN 的 网络 的 例子 : 新 增 了 Convolution 层 和 了 Pooling 层 (用 灰色 的 方块 表示 ) 


如 图 7-2 所 示 ，CNN 中 新 增 了 Convolution J fl Pooling Z4, CNN 的 
层 的 连接 顺序 是 “Convolution - ReLU -(Pooling)(Pooling 层 有 时 会 被 省 
略 )。 这 可 以 理解 为 之 前 的 “A 人 hne - ReLU” 连 接 被 替换 成 了 “Convolution - 
ReLU - (Pooling 连接 。 
还 需要 注意 的 是 , 在 图 7-2 的 CNN 中 , 靠近 输出 的 层 中 使 用 了 之 前 
Hj “Affine - ReLU” 组 合 。 此 外 ,最 后 的 输出 层 中 使 用 了 之 前 的 “Affine - 
Softmax" 组合。 这 些 都 是 一 般 的 CNN 中 比较 常见 的 结构 。 











72 ME 





CNN 中 出 现 了 一 些 特 有 的 术语 ， 比 如 填充 、 步 幅 等 。 此 外 ， 各 层 中 传 
递 的 数据 是 有 形状 的 数据 (比如 ，3 维 数据 )， 这 与 之 前 的 全 连接 网 络 不 同 ， 
因此 刚 开 始 学 习 CNN 时 可 能 会 感到 难以 理解 。 本 市 我 们 将 花 点 时 间 ， 认真 
学 习 一 下 CNN 中 使 用 的 卷 积 层 的 结构 。 
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7.2.1 全 连接 层 存 在 的 问题 


之 前 介绍 的 全 连接 的 神经 网 络 中 使 用 了 全 连接 层 (Affine 层 ),。 在 全 连接 
层 中 ， 相 邻 层 的 神经 元 全 部 连接 在 一 起 ， 输 出 的 数量 可 以 任意 决定 。 

全 连接 层 存 在 什么 问题 呢 ?” 那 就 是 数据 的 形状 被 “忽视 ”了 。 比 如 ， 输 
人 数据 是 图 像 时 ， 图 像 通常 是 高 、 长 、 通 道 方向 上 的 3 维 形状 。 但 是 ， 癌 全 
连接 层 输 入 时 ， 需 要 将 3 维 数据 拉平 为 1 维 数据 。 实 际 上 ， 前 面 提 到 的 使 用 
了 MNIST 数 据 集 的 例子 中 ,输入 图 像 避 是 1 通过 、 高 28 像 和 水、 长 28 像 素 
H3 (1, 28,28) 形 状 ， 但 却 被 排 成 1 列 ， 以 784 个 数据 的 形式 输入 到 最 开始 的 
Affine Jz. 

图 像 是 3 维 形状 ， 这 个 形状 中 应 该 含有 重要 的 空间 信息 。 比 如 ， 空 间 上 
邻近 的 像素 为 相似 的 值 、RBG 的 各 个 通道 之 间 分 别 有 和 密切 的 关联 性 、 相 距 
较 远 的 像 系 之 间 没 有 什么 关联 等 ，3 维 形状 中 可 能 隐藏 有 值得 提取 的 本 质 模 
式 。 但 是 ， 因 为 全 连接 层 会 忽视 形状 ,将 全 部 的 输入 数据 作为 相同 的 神经 元 
(同一 维度 的 神经 元 ) 处 理 ， 所 以 无 法 利用 与 形状 相关 的 信息 。 

而 卷 积 层 可 以 保持 形状 不 变 。 当 输入 数据 是 图 像 时 ， 卷 积 层 会 以 3 维 
数据 的 形式 接收 输入 数据 ， 并 同样 以 3 维 数据 的 形式 输出 至 下 一 层 。 因 此 ， 
在 CNN 中 ， 可 以 (有 可 能 ) 正确 理 解 图 像 等 具有 形状 的 数据 。 

另外 ，CNN 中 ,有 时 将 卷 积 层 的 输入 输出 数据 称 为 特征 图 (feature 
map)。 其 中 ， 卷 积 层 的 输入 数据 称 为 输入 特征 图 (input feature map)， 输 出 
数据 称 为 输出 特征 图 (output feature map)。 本 书 中 将 “输入 输出 数据 ”和 “ 特 
征 图 ”作为 含义 相同 的 词 使 用 。 





























卷 积 层 进行 的 处 理 就 是 卷 积 运 和 拭 。 卷 积 运算 相当 于 图 像 人 处 理 中 的 “ 滤 激 
估 运 算 ”"。 在 介绍 卷 积 运算 时 ， 我 们 来 看 一 个 具体 的 例子 (图 7-3)。 
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全 入 数据 





图 7-3 ” 卷 积 运算 的 例子 : Re" 符号 表示 卷 积 运算 


如 图 7-3 所 示 ， 卷 积 运算 对 输入 数据 应 用 小 流 融 。 在 这 个 例 于 中 ， 输 入 
数据 是 有 蜗 长 方向 的 形状 的 数据 ， 滤 波 带 也 一 样 ， 有 融 长 方向 上 的 维度 。 假 
设 用 (height, width) 表 示 数 据 和 小 波 带 的 形状 ， 则 在 本 例 中 ,输入 大 小 十 
(4,4), TIERRA]: (3,3), 输出 大 小 是 (2, 2)。 为 外 , 有 的 文献 中 也 会 用 “ 核 ” 
这 个 词 来 表示 这 里 所 说 的 “滤波 般 ”。 

现在 来 解释 一 下 图 7-3 的 卷 积 运算 的 例子 中 都 进行 了 什么 样 的 计算 。 图 7-4 
中 展示 了 卷 积 运算 的 计算 顺序 。 

对 于 输入 数据 ， 卷 积 运 算 以 一 定 间 隅 滑动 滤波 冀 的 窗口 并 应 用 。 这 里 所 
说 的 窗口 是 指 图 7-4 中 灰色 的 3 x 3 的 部 分 。 如 图 7-4 所 示 ， 将 各 个 位 置 上 沽 
波 希 的 元 系 和 输入 的 对 应 元 素 相 乘 ， 然 后 再 求 和 (有 时 将 这 个 计算 称 为 乘积 
累加 运算 )。 然 后 ， 将 这 个 结果 保存 到 输出 的 对 应 位 置 。 将 这 个 过 程 在 所 有 
位 置 都 进行 一 过 ， 就 可 以 得 到 卷 积 运算 的 输出 。 

在 全 连接 的 神经 网 络 中 ， 除 了 权重 参数 ， 还 存在 俩 置 。CNN 中 ， 滤 波 
右 的 参数 就 对 应 之 前 的 权重 。 并 且 ，CNN 中 也 存在 偏 置 。 图 7-3 的 卷 积 运算 
的 例子 一 直 展 示 到 了 应 用 滤波 天 的 阶段 。 包 含 俩 置 的 卷 积 运算 的 处 理 流 如 图 
1-5 BIZ o 

QUA 7-5 Bras, 18] FH De BC ae BUSCAS JL E. Y fi Ero dm CEDE RA 1e 
(1 x ICAI, ADT T MJIH TUR A ee, De EUR 171), ME 
ZONES PE HT Y USES EU BU JUR LE. 
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7-4” 卷 积 运 算 的 计算 顺序 
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输入 数据 Ueda CBOR) 输出 数据 





图 7-5 ” 卷 积 运算 的 偏 置 : 向 应 用 了 滤波 器 的 元 素 加 上 某 个 固定 值 ( 偏 置 ) 


7.2.3 ”填充 


在 进行 郑 积 层 的 处 理 之 前 ,有 时 要 问 输 入 数据 的 周围 填 入 固定 的 数据 ( 比 
如 0 等 ) 这 称 为 填充 (padding)， 是 卷 积 运算 中 经 常会 用 到 的 处 理 。 比 如 ， 
在 图 7-6 的 例子 中 ， 对 大 小 为 (4,4) 的 输入 数据 应 用 了 幅度 为 1 的 填充 。“ 幅 
度 为 1 的 填充 ”是 指 用 幅度 为 1 像素 的 0 填充 周围 。 

















(4, 4) ; (4, 4) 
输入 数据 (padding:1) 滤波 器 输出 数据 








图 7-6 ” 卷 积 运 算 的 填充 处 理 : 向 输入 数据 的 周围 填 入 0( 图 中 用 虚线 表示 填充 ， 并 省 略 了 
填充 的 内 容 0 





如 图 7-6 所 示 ， 通 过 填充 ， 大 小 为 (4, 4) 的 输入 数据 变 成 了 (6, 6) 的 形状 。 
然后 ， 应 用 大 小 为 (3,3) 的 滤波 器 ， 生 成 了 大 小 为 (4, 4) 的 输出 数据 。 这 个 例 
子 中 将 填充 设 成 了 1, 不 过 填充 的 值 也 可 以 设置 成 2、3 等 任意 的 整数 。 在 图 7-5 
的 例子 中 ， 如 果 将 填充 设 为 2， 则 输入 数据 的 大 小 变 为 (8, 8); 如 采 将 填充 设 
243, MARDEN (10, 10). 
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使 用 填充 主要 是 为 了 调整 输出 的 大 小 。 比 如 ， 对 大 小 为 (4, 4) 的 输入 
数据 应 用 (3,3) 的 滤波 器 时 ， 输 出 大 小 变 为 (2,2)， 相 当 于 输出 大 小 
比 输入 大 小 缩小 了 2 个 元 素 。 这 在 反复 进行 多 次 卷 积 运算 的 深度 网 
络 中 会 成 为 问题 。 为 什么 呢 ?” 因 为 如 果 每 次 进行 卷 积 运算 都 会 缩小 

空间 ， 那 么 在 某 个 时 刻 输出 大 小 就 有 可 能 变 为 1， 导 致 无 法 再 应 用 
卷 积 运算 。 A iie 况 ， 束 要 使 用 填充 。 在 刚才 的 例 
子 中 ， 将 填充 的 幅度 设 为 1， 那 么 相对 于 输入 大 小 (4 和， 输出 大 小 
也 保持 为 原来 的 (4,4)。 因 此 ， 0 运算 就 可 以 在 保持 空间 大 小 不 变 
的 情况 下 将 数据 传 给 下 一 层 。 


` 





7.2.4 ig 








应 用 滤波 器 的 位 置 间隔 称 为 步 幅 (stride)。 之 前 的 例子 中 步 幅 都 是 1， 如 
果 将 步 幅 设 为 2， 则 如 图 7-7 所 示 ， 应 用 滤波 器 的 窗口 的 间 隅 变 为 2 个 元 素 。 





7-7 步 幅 为 2 的 卷 积 运算 的 例子 
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在 图 7-7 的 例子 中 ， 对 输入 大 小 为 (7, 7) 的 数据 ， 以 步 幅 2 应 用 了 滤波 央 。 
通过 将 步 幅 设 为 2， 输 出 大 小 变 为 (3,3)。 像 这 样 ， 步 幅 可 以 指定 应 用 滤波 器 
的 间隔 。 

纤 上 ， 增 大 步 幅 后 ， 输 出 大 小 会 变 小 。 而 增 大 项 充 后 ， 输 出 大 小 会 变 大 。 
如 果 将 这 样 的 关系 写成 算式 ,会 如 何 呢 ? 接 下 来 ,我们 看 一 下 对 于 填充 和 步 
幅 ， 如 何 计 算 输 出 大 小 。 

这 里 ,假设 输入 大 小 为 (H,W)， WRN (FH, FW)， 输 出 大 小 为 
(OH, OW)， 填 充 为 P， 步 幅 为 S$。 此 时 ， 输 出 大 小 可 通过 式 (7.1) 进行 计算 。 











oy = Ht?P -FH 1 
2 (7.1) 
ow = 5 i 





现在 ,我 们 使 用 这 个 算式 ， 试 着 做 儿 个 计算 。 


例 1: 图 7-6 的 例子 
输入 大 小 : (4,4); 填充 : 1; WR: 1; 滤波 器 大 小 : (3,3) 


例 2: 图 7-7 的 例子 
输入 大 小 : (7,7); 填充 : 0; HM: 2; 滤波 器 大 小 : (3,3) 


7 了 +2.0 一 3 
i 2 


OH +1=3 


fil 3 
输入 大 小 : (28,31); 填充 : 2; HRM: 3; 滤波 器 大 小 : (5,5) 
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OH 3 4-1 —11) 
ow = 3—— 7— +1=11 





如 这 些 例子 所 示 ， 通 过 在 式 (7.1) 中 代入 值 ， 就 可 以 计算 输出 大 小 。 这 
里 需要 注意 的 是 ， 虽 然 只 要 代入 值 就 可 以 计算 输出 大 小 ,但 是 所 设 定 的 值 必 
须 使 式 (7.1) 中 的 WA2P— EW 和 H12P- FH 分 别 可 以 除 尽 。 当 输出 大 小 无 法 
除 尽 时 (结果 是 小 数 时 )， 需 要 采取 报错 等 对 策 。 顺 便 说 一 下 ， 根 据 深度 学 习 
的 框架 的 不 同 ， 当 值 无 法 除 尽 时 ， 有 时 会 向 最 接近 的 整数 四 合 五 人 ， 不 进行 
报错 而 继续 运行 。 








7.2.5 ”3 维 数 据 的 卷 积 运算 

之 前 的 卷 积 运算 的 例子 部 是 以 有 高 、 长 方 同 的 2 维 形状 为 对 象 的 。 但是， 
图 像 是 3 维 数据 ， 除 了 高 、 长 方向 之 外 ， 还 需要 处理 通 道 方向 。 这 里 ,我们 按 
照 与 之 前 相同 的 顺序 , 看 一 下 对 加 上 了 通道 方向 的 3 维 数据 进行 卷 积 运 算 的 例子 。 

图 7-8 是 卷 积 运算 的 例子 ， 图 7-9 是 计算 顺序 。 这 里 以 3 通道 的 数据 为 例 ， 
展示 了 卷 积 运算 的 结果 。 和 2 维 数据 时 (图 7-3 的 例子 ) 相 比 ， 可 以 发 现 纵深 
方 问 (通道 方向 ) 上 特征 图 增加 了 。 通 道 方向 上 有 多 个 特征 图 时 ， 会 按 通 道 
进行 输入 数据 和 滤波 剖 的 卷 积 运算 ， 并 将 结果 相 加 ， 从 而 得 到 输出 。 


























输出 数据 





图 7-8 ”对 3 维 数 据 进行 卷 积 运算 的 例子 
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需要 注意 的 是 ,在 3 维 数据 的 卷 积 运算 中 ， 输 入 数据 和 滤波 器 的 通道 数 
要 设 为 相同 的 值 。 在 这 个 例子 中 ， J Jy 3. 
滤波 器 大 小 可 以 设 定 为 任意 值 (不 过 ， 每 个 通道 的 滤波 器 大 小 要 全 部 相同 )。 

这 个 例子 中 滤波 器 d 3s SUNL ANT 2). (1,1). (5,5) 等 任 


m 
意 值 。 再 强调 一 下 ， 通 道 数 只 能 设 定 为 和 输入 数据 的 通道 数 相同 的 值 ( 本 例 
中 为 3)。 





7.2.6 ”结合 方块 思 





将 数据 和 滤波 冀 结 合 长 方 体 的 方块 来 考虑 ，3 维 数据 的 卷 积 运算 会 很 
容易 理解 。 方 块 是 如 图 7-10 所 示 的 3 维 长 方 体 。 trii an 维 数组 

时 ， 书写 顺序 为 (channel height, width). EA, MERANO, BEN H, 
长 度 为 ee H, W), d EUL—fFÉ, TE (channel, 
height, width) AY MFR. EL AH, i8 3H 2Cy C. TEX ds tes RE OY FH (Filter 
Height), KE” FW(Filter Width) " 可 以 写成 (C, FH, FW), 


(C, H, W) (x) (C, FH, FW) (1, OH, OW) 


输入 数据 y IET 输出 数据 





7-10 ”结合 万 块 思 考卷 积 运算 。 请 注意 方块 的 形状 


在 这 个 例子 中 ， 数 据 输出 是 1 张 特 征 图 。 所 谓 1 张 特征 图 ， 换 句 话 说 ， 
就 是 通道 数 为 1 的 特征 图 。 那 么 ， 如 果 要 在 通道 方 同上 也 拥有 多 个 卷 积 运算 
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的 输出 ， 该 怎么 做 呢 ? 为 此 ， 就 需要 用 到 多 个 滤波 需 ( 权 重 )。 用 图 表示 的 话 ， 
如 图 7-11 所 示 。 


FN 个 
FN 


| 
— OH il = 
Lr 
IL 
LEM 


OW 
EM d 


(FN, C, FH, FW) —Ó—— (FN, OH, OW) 
滤波 需 输出 数据 





图 7-11 基于 多 个 滤波 器 的 卷 积 运算 的 例子 


图 7-11 中 ,通过 应 用 FN 个 滤波 右 ， 输 出 特征 图 也 生成 了 FN 个 。 如 采 
将 这 FN 个 特征 图 汇集 在 一 起 ， 就 得 到 了 形状 为 (FN, OH, OW) 的 方块 。 将 
这 个 方块 传 给 下 一 层 ， 就 是 CNN 的 处 理 流 。 

如 图 7-11 所 示 ,， 关于 卷 积 运算 的 滤波 器 , 也 必须 考虑 滤波 颖 的 数 
量 。 因 此 ， 作 为 4 维 数据 ,滤波 顺 的 权重 数据 要 按 (output. channel, input_ 
channel, height, width) 的 顺序 书写 。 比 如 ,通道 数 为 3、 大 小 为 5 x 5 的 滤 
波 右 有 20 个 时 ， 可 以 写成 (20, 3, 5, 5)。 

卷 积 运算 中 (和 全 连接 层 一 样 ) 存 在 偏 置 。 在 图 7-11 的 例子 中 ， 如 有 果 进 
一 步 妃 加 偏 置 的 加 法 运算 处 理 ， 则 结果 如 下 面 的 图 7-12 所 示 。 

图 7-12 中 ,每 个 通道 只 有 一 个 偏 置 。 这 里 , 偏 置 的 形状 是 (FN, 1,1), 
滤波 器 的 输出 结果 的 形状 是 (FN, OH,OW)。 这 两 个 方块 相 加 时 ， 要 对 滤波 
fa 158 HH ZR (EN, OH,OW) 按 通道 加 上 相同 的 偏 置 值 。 男 外 ， 不 同形 状 的 
方块 相 加 时 ， 可 以 基于 NumpPy 的 广播 功能 轻松 实现 (1.5.5 节 )。 
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@ (FN, C, FH, FW) — (FN, OH, OW) + (FN,1,1) —-  (FN,OH,O 
滤波 髓 偏 置 输出 数据 























图 7-12” 卷 积 运 算 的 处 理 流 ( 追 加 了 偏 置 项 ) 


7.27 ” 批 处 理 


神经 网 络 的 处 理 中 进 和 en 之 前 的 全 连接 神经 
网 络 的 实现 也 对 应 了 批 处 理 ， 通 过 批 处 理 ， 能 够 实现 处 理 的 高 效 化 和 学 习 时 
对 mini-batch 的 对 应 。 
我 们 希望 卷 积 运算 也 同样 对 应 批 处 理 。 为 此 ， 需 要 将 在 各 层 间 传递 的 数 
据 保 存 为 4 维 数据 。 具 体 地 讲 ， 就 是 按 (batch_num, channel, height, width) 
的 顺序 保存 数据 。 比 如 ， 将 图 7-12 中 的 处 理 改 成 对 入 个 数据 进行 批 处 理 时 ， 
数据 的 形状 如 图 7-13 所 示 。 
图 7-13 的 批 处 理 版 的 数据 流 中 ， 在 各 个 数据 的 开头 添加 了 批 用 的 维度 。 
像 这 样 ， 数 据 作 为 4 维 的 形状 在 各 层 间 传递 。 这 里 需要 注意 的 是 ， 网 络 间 传 
递 的 是 4 维 数据 ， 对 这 个 数据 进行 了 卷 积 运 算 。 也 就 是 说 ， 批 处 理 将 N 次 
的 处 理 汇 总 成 了 1 次 进行 。 




















OW OW 


x: 
E 
FN, C, FH, —. (N, FN, OH, O NT N, FN, OH, O 
m GU cet m Un US EAR) 





图 7-13 ” 卷 积 运算 的 处 理 流 ( 批 处 理 ) 
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7.3 HIE 


池 化 是 缩小 高 、 长 方向 上 的 空间 的 运算 。 比 如 ， 如 图 7-14 所 示 ， 进 行将 
2 x2 的 区 域 集 约 成 1 个 元 素 的 处 理 ， 缩 小 空间 大 小 。 





图 7-14 Max 池 化 的 处 理 顺 序 


图 7-14 的 例子 是 按 步 幅 2 进行 2 x 2 的 Max 池 化 时 的 处 理 顺 序 。 “Max 
池 化 ”是 获取 最 大 值 的 运算 ,“2 x 2” 表 示 目 标 区 域 的 大 小 。 如 图 所 示 ， 从 
2 x 2 的 区 域 中 取出 最 大 的 元 素 。 此 外 ， 这 个 例子 中 将 步 幅 设 为 了 2， 所 以 
2 x 2 的 窗口 的 移动 间隔 为 2 个 元 素 。 男 外 ， 一般 来 说 ， 池 化 的 窗口 大 小 会 
和 步 幅 设 定 成 相同 的 值 。 比 如 ，3 x 3 的 窗口 的 步 幅 会 设 为 3，4 x 4 的 窗口 
的 步 幅 会 设 为 4 等 。 











os | 除了 Max 池 化 之 外 ， 还 有 Average 池 化 等 。 相 对 于 Max 池 化 是 从 

P Pa, | 目标 区 域 中 取出 最 大 值 ， Average 池 化 则 是 计算 目标 区 域 的 平均 值 。 

SSN 在 图 像 识 别 领域 , 主要 使 用 Max 池 化 。 因 此 ， 本 书 中 说 到 “ 池 化 层 " 
时 ， 指 的 是 Max 池 化 。 





73 Akal 215 


池 化 层 的 特征 
池 化 层 有 以 下 特征 。 


没有 要 学 习 的 参数 
池 化 层 和 卷 积 层 不 同 ， 没 有 要 学 习 的 参数 。 池 化 只 是 从 目标 区 域 中 取 最 
大 值 (或 者 平均 值 )， 所 以 不 存在 要 学 习 的 参数 。 


通道 数 不 发 生变 化 
经 过 池 化 运算 ， 输 入 数据 和 输出 数据 的 通道 数 不 会 发 生变 化 。 如 图 7-15 


Fr 
所 示 ， 计 算是 按 通道 独立 进行 的 。 


输入 数据 输出 数据 





图 7-15” 池 化 中 通道 数 不 变 


对 微小 的 位 置 变化 具有 和 鲁 棒 性 (健壮 ) 

输入 数据 发 生 微小 偏差 时 ， 池 化 仍 会 返回 相同 的 结果 。 因 此 ， 池 化 对 
输入 数据 的 微小 偏差 具有 鲁 棒 性 。 比 如 ，3 x 3 的 池 化 的 情况 下 ， 如 图 
7-16 所 示 ， 池 化 会 吸收 输入 数据 的 偏差 (根据 数据 的 不 同 ， 结 果 有 可 
能 不 一 致 )。 
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7-16 ”输入 数据 在 宽度 方向 上 只 偏离 1 个 元 素 时 , 输出 仍 为 相同 的 结果 (根据 数据 的 不 同 ， 
有 时 结果 也 不 相同 ) 


7.4” 卷 积 层 和 池 化 层 的 实现 


前 面 我 们 详细 介绍 了 卷 积 层 和 池 化 屋 ， 本 市 我 们 就 用 Python 来 实现 这 
两 个 层 。 和 第 5 章 一 样 ， 也 给 进行 实现 的 类 赋予 forward 和 backward 方 法 ， 并 
使 其 可 以 作为 模块 使 用 。 

大 家 可 能 会 感觉 卷 积 层 和 池 化 层 的 实现 很 复杂 ,但 实际 上 ， 通 过 使 用 某 
种 技巧 ， 就 可 以 很 轻松 地 实现 。 本 市 将 介绍 这 种 技巧 ， 将 问题 简化 ， 然 后 再 
进行 卷 积 层 的 实现 。 








7.4.1 4 维 数 组 

如 前 所 述 ，CNN 中 各 层 间 传递 的 数据 是 4 维 数据 。 所 谓 4 维 数据 ， 比 如 
数据 的 形状 是 (10, 1, 28, 28)， 则 它 对 应 10 个 高 为 28、 长 为 28、 通 道 为 1 的 数 
据 。 用 Python 来 实现 的 话 ， 如 下 所 示 。 





>>> X = np.random.rand(10, 1, 28, 28) # 随机 生成 数据 
>>> x.shape 
(10, 1, 28, 28) 


这 里 ， 如 果 要 访问 第 1 个 数据 ， 只 要 写 x[0] 就 可 以 了 (注意 Python Ay 
引 是 从 0 开始 的 )。 同样 地 ， 用 x[1] 可 以 访问 第 2 个 数据 。 
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>>> x[0].shape # (1, 28, 28) 
>>> x[1].shape # (1, 28, 28) 








如 果 要 访问 第 1 个 数据 的 第 1 个 通道 的 空间 数据 ， 可 以 写成 下 面 这 样 。 


>>> x[0, 0] # 或 者 x[0] [0] 





像 这 样 ，CNN 中 处 理 的 是 4 维 数据 ， 因 此 卷 积 运算 的 实现 看 上 去 会 很 复 
杂 ， 但 是 通过 使 用 下 面 要 介绍 的 im2cot 这 个 技巧 ， 问 题 就 会 变 得 很 简单 。 


7.4.2 ”基于 im2col 的 展开 


如 果 老 老实 实地 实现 卷 积 运算 ,估计 要 重复 好 几 层 的 for 语 句 。 这 样 的 
KAAR, 而 且 , NumPy 中 存在 使 用 for 语句 后 处 理 变 慢 的 缺点 (NumPy 
中 ， 访 问 元 系 时 最 好 不 要 用 for 语 句 )。 这 里 ,我 们 不 使 用 for 语 句 ， 而 是 使 
用 im2cot 这 个 便利 的 函数 进行 简单 的 实现 。 

im2col 是 一 个 函数 , 将 输入 数据 展开 以 适合 滤波 融 ( 权 重 )。 如 图 7-17 所 示 ， 
对 3 维 的 输入 数据 应 用 im2col 后 ， 数 据 转 换 为 2 维和 矩阵 (正确 地 讲 ， 是 把 包含 
批 数 量 的 4 维 数据 转换 成 了 2 维 数据 )。 














im2col 





7-17 im2col 的 示意 图 


im2col 会 把 输入 数据 展开 以 适合 滤波 带 (权重 )。 具 体 地 说 , 如 图 7-18 所 示 ， 
对 于 输入 数据 ， 将 应 用 滤波 右 的 区 域 (3 维 方块 ) 横 回 展 开 为 1 列 。im2col 会 
在 所 有 应 用 滤波 可 的 地 方 进行 这 个 展开 人 处理 。 
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7-18 ”将 滤波 器 的 应 用 区 域 从 头 开始 依次 横向 展开 为 1 列 





在 图 7-18 中 ， 为 了 便于 观察 ， 将 步 幅 设置 得 很 大 ， 以 使 滤波 融 的 应 用 

域 不 重合 。 而 在 实际 的 卷 积 运算 中 ,滤波 带 的 应 用 区 域 几乎 部 是 重合 的 。 在 
滤波 天 的 应 用 区 域 重 三 的 情况 下 ， 使 用 im2cot 展 开 后 ， 展 开 后 的 元 系 个 数 会 
多 于 原 方块 的 元 系 个 数 。 因 此 ， 使 用 inzcolt 的 实现 存在 比 普通 的 实现 消耗 更 
多 内 存 的 缺点 。 但 是 ， 汇 总 成 一 个 大 的 矩阵 进行 计算 ， 对 计算 机 的 计算 顺 有 
inl GUB MEN AN iN MA 
Bem, AY Wie eee MARAIS. DUC, 3S8 EHZSSIBBISTEEE 
上 上， 可 以 有 效 地 利用 线性 代数 库 。 


` 


(EH im2col EF AA RE, s R ERSE BY UB U Ar CA EE) BA 
问 展开 为 1 列 ， 并 计算 2 个 矩阵 的 乘积 即 可 (参照 图 7-19)。 这 和 全 连接 层 的 
Affine 层 进行 的 处 理 基 本 相同 。 

如 图 7-19 所 示 ， 基 于 im2col 方 式 的 输出 结 来 是 2 维和 矩阵 。 因 为 CNN 中 
数据 会 保存 为 4 维 数组 ， 所 以 要 将 2 维 输出 数据 转换 为 合适 的 形状 。 以 上 就 
是 卷 积 层 的 实现 流程 。 

















im2col 这 个 名 称 是 “image to column” 的 缩写 ， 翻 译 过 来 就 是 “从 
图 像 到 矩阵 ”的 意思 。Caffe、Chainer 等 深度 学 习 框 架 中 有 名 为 
im2col 的 函数 ， 并 且 在 卷 积 层 的 实现 中 ， 都 使 用 了 im2col, 
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全 人 数据 
EN 4 


滤波 做 


im2col 


reshape 
Hie 


输出 数据 


输出 数据 (2 ) 





图 7-19 ” 卷 积 运算 的 滤波 器 处 理 的 细节 : 将 滤波 器 纵向 展开 为 1 列 ， 并 计算 和 im2col 展 开 
的 数据 的 和 矩阵 乘积 ， 最 后 转换 (reshape) 为 输出 数据 的 大 小 


7.43 ” 卷 积 层 的 实现 


本 书 提供 了 im2cot KZ, 并 将 这 个 im2cot 函数 作为 黑 盒 (不 关心 内 部 实现 ) 
使 用 。im2col 的 实现 内 容 在 common/util.py 中 ， 它 的 实现 (实质 上 ) 是 一 个 10 
行 左 右 的 简单 函数 。 有 兴趣 的 读者 可 以 参考 。 

im2col 这 一 便捷 函数 具有 以 下 接口 。 








im2col (input data, filter h, filter w, stride-1, pad=0) 





e input data 一 一 由 (数据 量 ， 通 道 ,高 , 长 ) 的 4 维 数组 构成 的 输入 数据 
e filter h 滤波 器 的 高 
e filter w 滤波 器 的 长 





e stride 一 一 步 幅 


e pad 一 一 填充 
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im2col 会 考虑 滤波 伪 大 小 、 步 幅 、 填 充 , 将 输入 数据 展开 为 2 维 数 组 。 现在 ， 
我 们 来 实际 使 用 一 下 这 个 im2col。 








import sys, os 
Sys.path.append(os.pardir) 
from common.util import im2col 


xl = np.random.rand(1, 3, 7, 7) 
coll = im2col(x1, 5, 5, stride-1, pad=0) 
print(coll.shape) # (9, 75) 


x2 = np.random.rand(10, 3, 7, 7) # 10 个 数据 
col2 = im2col(x2, 5, 5, stride-1, pad=0) 
print(col2.shape) # (90, 75) 


这 里 举 了 两 个 例子 。 第 一 个 是 批 大 小 为 1、 通 道 为 3 的 7 x7 的 数据 ， 第 
二 个 的 批 大 小 为 10， 数 据 形状 和 第 一 个 相同 。 分 别 对 其 应 用 im2col 函数 ， 在 
这 两 种 情形 下 ， 第 2 维 的 元 素 个 数 均 为 75。 这 是 滤波 器 (通道 为 3、 大 小 为 
5 x 5) 的 元 素 个 数 的 总 和 。 批 大 小 为 1 时 ，im2col 的 结 采 是 (9, 75)。 而 第 2 
个 例子 中 批 大 小 为 10， 所 以 保存 了 10 倍 的 数据 ， 即 (90, 75)。 

现在 使 用 im2col 来 实现 卷 积 层 。 这 里 我 们 将 卷 积 层 实现 为 名 为 Convolution 


的 类 。 








class Convolution: 
def init (self, W, b, stride-1, pad=0): 
self.W = W 
self.b = b 
self.stride = stride 
self.pad = pad 


def forward(self, x): 

FN, C, FH, FW = self.W.shape 

N, C, H, W = x.shape 

out h = int(1 + (H + 2*self.pad - FH) / self.stride) 
int(1 + (W + 2*self.pad - FW) / self.stride) 


o 
c 
ct 
z 
Il 


= im2col(x, FH, FW, self.stride, self.pad) 
W = self.W.reshape(FN, -1).T # 滤波 器 的 展开 
= np.dot(col, col_W) + self.b 


out = out.reshape(N, out h, out w, -1).transpose(0, 3, 1, 2) 


return out 
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卷 积 层 的 初始 化 方法 将 滤波 右 (权重 )、 偏 置 、 步 幅 、 填 充 作 为 参数 接收 。 
滤波 器 是 (FN, C, FH, FW) 的 4 维 形状 。 男 外 ，FN、C、FH、Fw 分 别 是 Filter 
Number (滤波 器 数量 )、Channel、Filter Height, Filter Width 的 缩写 。 

这 里 用 粗 体 字 表 示 Convolution 层 的 实现 中 的 重要 部 分 。 在 这 些 粗 体 字 
部 分 , 用 im2cot 展 开 输 入 数据 , 并 用 reshape 将 小 小 硕 展开 为 2 维 数组 。 然 后 ， 
计算 展开 后 的 矩阵 的 乘积 。 

JEJT UE I tit HMM 7-19 BRAN, RES TR at 
的 方块 纵 问 展开 为 1 列 。 通过 reshape(FN, -1) 将 参数 指定 为 -1， 这 是 
reshape 的 一 ME E 通过 在 reshape TIR 4E Wy -1, reshape PK CZ: H 
动 计算 -1 维度 上 的 元 素 个 数 ， 以 使 多 维 数组 的 元 素 个 数 前 后 一 致 。 比 如 ， 
(10, 3,5,5) 形 状 的 数组 的 元 素 个 数 共 有 750 人 个， 指定 reshape(10,-1) Ja, WÈ 
会 转换 成 (10, 75) 形 状 的 数组 。 

forward 的 实现 中 ， 最 后 会 将 输出 大 小 转换 为 合适 的 形状 。 转 换 时 使 用 了 
NumPy fy transpose 因数 。transpose 会 更 改 多 维 数组 的 轴 的 顺序 。 如 图 7-20 
所 示 ， 通 过 指定 从 0 开始 的 索引 (编号 ) 序 列 ， 就 可 以 更 改 轴 的 顺序 。 














形状 (N, H, W, C) transpose 
SS 


索引 0, 1, 2, 3 





7-20 基于 NumPy 的 transpose 的 轴 顺 序 的 更 改 : 通过 指定 索引 (编号 )， 更 改 轴 的 顺序 





以 上 就 是 卷 积 层 的 forward 处 理 的 实现 。 通 过 使 用 im2col 进行 展开 ， 
本 上 可 以 像 实 现 全 连接 层 的 Affine 层 一 样 来 实现 (5.6 方 )。 pe 
的 反 回 传播 的 实现 ， 因 为 和 A 重 ne 层 的 实现 有 很 多 共通 的 地 方 ， 所 以 就 不 再 
介绍 了 了。 但 有 一 点 需要 注意 ， 在 进行 卷 积 层 的 反问 传播 时 ， 必 须 进行 im2col 
的 逆 处 理 。 这 可 以 使 用 本 书 提供 的 col2im 孙 数 (col2im 的 实现 在 common/util. 
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py 中 ) 来 进行 。 除 了 使 用 col2im 这 一 点 ， 卷 积 层 的 反 向 传播 和 Affhine 层 的 实 
现 方式 都 一 样 。 卷 积 层 的 反 向 传播 的 实现 在 common/layer.py 中 ， 有 兴趣 的 读 
者 可 以 参考 。 





7.4.4 ” 池 化 层 的 实现 

池 化 层 的 实现 和 卷 积 层 相 同 ， 都 使 用 im2col 展 开 输 入 数据 。 不 过 ， 池 化 
的 情况 下 ， 在 通道 方向 上 是 独立 的 ， 这 一 点 和 卷 积 层 不 同 。 具 体 地 讲 ， 如 图 
7-21 所 示 ， 池 化 的 应 用 区 域 按 通道 单独 展开 。 
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7-21 ”对 输入 数据 展开 池 化 的 应 用 区 域 (2 x 2 的 池 化 的 例子 ) 





像 这 样 展开 之 后 ， 只 需 对 展开 的 矩阵 求 各 行 的 最 大 值 ， 并 转换 为 合适 的 
形状 即 可 (图 7-22)。 


输入 数据 





7.4” 卷 积 层 和 池 化 层 的 实现 | 223 
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图 7-22” 池 化 层 的 实现 流程 : 池 化 的 应 用 区 域内 的 最 大 值 元 素 用 灰色 表示 





上 面 就 是 池 化 层 的 forvard 处 理 的 实现 流程 。 下 面 来 看 一 下 Python 的 实 


现 示例 。 


class Pooling: 


def 


def 


| init (self, pool h, pool w, stride=1, pad=0): 
self.pool h = pool h 

self.pool w = pool w 

self.stride - stride 

self.pad - pad 


forward(self, x): 
N, C, H, W = x.shape 
out h = int(1 + (H - self.pool h) / self.stride) 


o 
c 
(ct 
z 
Hu 1 


int(1 + (W - self.pool w) / self.stride) 
# 展开 (1) 
col = im2col(x, self.pool h, self.pool w, self.stride, self.pad) 
col = col.reshape(-1, self.pool h*self.pool w) 
# 最 大 值 (2) 
out = np.max(col, axis=1) 
# 转换 (3) 


out = out.reshape(N, out h, out w, C).transpose(0, 3, 1, 2) 


return out 


如 图 7-22 所 示 ， 池 化 层 的 实现 按 下 面 3 个 阶段 进行 。 
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1. 展 开 输 入 数据 。 
2. 求 各 行 的 最 大 值 。 
3. 转换 为 合适 的 输出 大 小 。 


各 阶段 的 实现 神 很 简单 ， 只 有 一 两 行 代码 。 


最 大 值 的 计算 可 以 使 用 NumpPy 的 np.max 方 法 。np.max 可 以 指定 
axis 参数 ， 并 在 这 个 参数 指定 的 各 个 轴 方 向 上 求 最 大 值 。 比 如 ， 如 
果 写 成 np.max(x，axis=1)， 就 可 以 在 输入 x 的 第 1 维 的 各 个 轴 方 向 
上 求 最 大 值 。 





以 上 就 是 池 化 层 的 forward 人 处理 的 介绍 。 如 上 所 述 ， 通过 将 输入 数据 展 
开 为 容易 进行 池 化 的 形状 ， 后 面 的 实现 就 会 变 得 非常 简单 。 

关于 池 化 层 的 backward 处 理 , 之 前 已 经 介绍 过 相关 内 容 , 这 里 就 不 再 介绍 了 。 
男 外 ， 池 化 层 的 backward 人 处理 可 以 参考 ReLU 层 的 实现 中 使 用 的 max 的 反问 
传播 (5.5.1 节 )。 池 化 层 的 实现 在 common/tayer.py 中 ， 有 兴趣 的 读者 可 以 参考 。 








7.55 ” CNN 的 实现 


我 们 已 经 实现 了 卷 积 层 和 池 化 层 ， 现 在 来 组 合 这 些 层 ,搭建 进行 手写 数 
字 识 别 的 CNN。 这 里 要 实现 如 图 7-23 所 示 的 CNN。 





7-23 E CNN 的 网 络 构成 
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如 图 7-23 所 示 ， 网 络 的 构成 是 “Convolution - ReLU - Pooling -Affine - 
ReLU - Affine - Softmax”， 我 们 将 它 实现 为 名 为 SimpleConvNet 的 类 
首先 来 看 一 下 SimpleConvNet 的 初始 化 (__init _)， 取 下 面 这 些 参数 。 











参数 
e input dim 一 一 输入 数据 的 维度 : (通道 , 高 , K) 
e conv param 一 一 卷 积 层 的 超 参 数 ( 字 典 )， 字 典 的 关键 字 如 下 
filter num 滤波 器 的 数量 
filter size 滤波 器 的 大 小 
步 幅 





pad 一 一 填充 
e hidden size 一 一 隐藏 层 ( 全 连接 ) 的 神经 元 数量 
e output size 一 一 输出 层 ( 全 连接 ) 的 神经 元 数量 
e weitght int std 一 一 初始 化 时 权重 的 标准 差 


这 里 ， 卷 积 层 的 超 参数 通过 名 为 conv_param 的 字典 传 入 。 我 们 设想 
f& (' filter num':30,'filter size':5，'pad' :0，'stride':1} 这 样 ， 
的 超 参 数值 。 

SimpleConvNet 的 初始 化 的 实现 稍 长 ， 我 们 分 成 3 部 分 来 说 明 ， 放 先是 初 
始 化 的 最 开始 部 分 。 





class SimpleConvNet: 
def init (self, input dim=(1, 28, 28), 
conv param-('filter num':30, ‘filter size':5, 
'pad':0, 'stride':1), 
hidden size-100, output size-10, weight init std=0.01): 
filter num = conv param['filter num'] 
filter size - conv param['filter size'] 
filter pad = conv param['pad'] 
filter stride = conv param['stride'] 
input size = input dim[1] 
conv output size = (input size - filter size + 2*filter pad) / \ 
filter stride + 1 
pool output size - int(filter num * (conv output size/2) * 
(conv output size/2)) 
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这 里 将 由 初始 化 参数 传人 的 卷 积 层 的 超 参数 从 字典 中 取 了 出 来 (以 方便 
后 面 使 用 ), 然后 , 计算 卷 积 层 的 输出 大 小 。 接 下 来 是 权重 参数 的 初始 化 部 分 。 








self.params = {} 
self.params['W1'] = weight init std * \ 
np.random.randn(filter num, input dim[0], 
filter size, filter size) 
np.zeros(filter num) 
weight init std * V 
np.random.randn(pool output size, 
hidden size) 
np.zeros(hidden size) 
weight init std * V 
np.random.randn(hidden size, output size) 
self.params['b3'] = np.zeros(output size) 


self.params['b1l'] 
self.params['W2'] 


self.params['b2'] 
self.params['W3'] 








学 习 所 需 的 参数 是 第 1 层 的 卷 积 层 和 剩余 两 个 全 连接 层 的 权重 和 偏 置 。 
将 这 些 参数 保存 在 实例 变量 的 paramns 字 典 中 。 将 第 1 层 的 卷 积 层 的 权重 设 为 
关键 字 wW1， 仙 置 设 为 天 键 字 bl。 同 样 ， 分 别 用 关键 字 W2 、b2 和 关键 字 W3 b3 
来 保存 第 2 个 和 第 3 个 全 连接 层 的 权重 和 偏 置 。 

最 后 ， 生 成 必要 的 层 。 











self.layers = OrderedDict() 

self.layers['Conv1'] = Convolution(self.params['W1'], 
self.params['bl'], 
conv param['stride'], 
conv param['pad']) 


self.layers['Relul'] 
self.layers['Pooll'] 
self.layers['Affinel' 


Relu() 

Pooling(pool hz2, pool w-2, stride-2) 

- Affine(self.params['W2'], 
self.params['b2']) 


— | I 


self.layers['Relu2'] = Relu() 
self.layers['Affine2'] = Affine(self.params['W3'], 

self.params['b3']) 
self.last layer - softmaxwithloss() 





SA Bee Bf T AT fs dz JUR [n] A FF SL (OrderedDict) HJ layers PRIJE. W 
有 最 后 的 SoftmaxwWithLoss 层 被 添加 到 别 的 变量 lastLayer F , 

以 上 就 是 SimpteConvNet 的 初始 化 中 进行 的 处 理 。 像 这 样 初 始 化 后 ， 进 
行 推 理 的 predict 方 法 和 求 损失 函数 值 的 1oss 方 法 就 可 以 像 下 面 这 样 实现 。 
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def predict(self, x): 
for layer in self. layers.values(): 
x = Layer. forward(x) 
return x 


def loss(self, x, t): 
y = self.predict(x) 
return self.lastLayer.forward(y, t) 

里 ， 人 参数 x 是 输入 数据 ，t 是 教师 标签 。 用 于 推理 的 predict WUE Mk 
开始 依次 调用 已 添加 的 层 ， 并 将 结果 传递 给 下 一 层 。 在 求 损失 函数 的 Voss 
方法 中 , 除了 使 用 predict 方 法 进行 的 forward 处 理 之 外 , 还 会 继续 进行 
forward 处 理 ， 直 到 到 达 最 后 的 SoftmaxWithLoss 层 。 

接 下 来 是 基于 误差 反问 传播 法 求 梯 度 的 代码 实现 。 











def gradient(self, x, t): 
# forward 
self.loss(x, t) 


# backward 
dout = 1 
dout = self. lastLayer.backward(dout) 


layers = list(self.layers.values()) 
layers.reverse() 
for layer in layers: 

dout = layer.backward(dout) 


# WE 

grads = {} 

grads['W1'] = self.layers['Conv1'].dW 
grads['b1'] = self.layers['Conv1'].db 
grads['W2'] = self.layers['Affinel'].dW 
grads['b2'] = self.layers['Affinel'].db 
grads['W3'] = self.layers['Affine2'].dW 
grads['b3'] = self.layers['Affine2'].db 


return grads 


cen 是 过 误差 反 回 传播 法 ( 反 回 传播 ) 求 出 ， 通 过 把 正 回 传 播 和 
反问 传播 组 装 在 一 起 来 完成 。 i sn 
ana 里 只 需要 以 合适 的 顺序 调用 即 可 。 最 后 ， 把 各 个 权重 参数 
的 梯度 保存 到 grads 字 典 中 。 这 就 是 SimpLeConvNet 的 实现 。 
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现在 , 使 用 这 个 SimpleConvNet 学 习 MNIST 数 据 集 。 用 于 学 习 的 代码 
与 4.5 节 中 介绍 的 代码 基本 相同 ， 因 此 这 里 不 再 罗列 ( 源 代 码 在 ch07/train. 
convnet .py 中 ), 

如 果 使 用 MNIST 数 据 集训 练 SimpteConvNet， 则 训练 数据 的 识别 率 为 
99.82%， 测 试 数据 的 识别 率 为 98.96% (每 次 学 习 的 识别 精度 都 会 发 生 一 些 误 
差 )。 测试 数据 的 识别 率 大 约 为 99%， 就 小 型 网 络 来 说 ， 这 是 一 个 非常 高 的 
识别 率 。 下 一 章 ， 我 们 会 通过 进一步 三 加 层 来 加 深 网 络 ， 实 现 测试 数据 的 识 
别 率 超 过 99% 的 网 络 。 

如 上 所 述 ， 卷 积 层 和 池 化 层 是 图 像 识别 中 必 备 的 模块 。CNN 可 以 有 效 
读 取 图 像 中 的 某 种 特性 ， 在 手写 数字 识别 中 ， 还 可 以 实现 高 精度 的 识别 。 




















7.6 ”CNN 的 可 视 化 





CNN 中 用 到 的 卷 积 层 在 “观察 ”什么 呢 ?” 本 市 将 通过 卷 积 层 的 可 视 化 ， 
探索 CNN 中 到 底 进 行 了 什么 处 理 。 


7.6.1 第 1 层 权 重 的 可 视 化 


刚才 我 们 对 MNIST 数 据 集 进行 了 简单 的 CNN 学 习 。 当 时 , 第 1 层 的 
卷 积 层 的 权重 的 形状 是 (30, 1,5,5)， 即 30 个 大 小 为 5 x 5、 通 道 为 1 的 滤波 
ibo VEVA ADE 5 x 5、 通 道 数 是 1， 意 味 着 滤波 器 可 以 可 视 化 为 1 通道 的 
灰 度 图 像 。 现 在 ,我 们 将 卷 积 层 ( 第 1 层 ) 的 滤波 器 显示 为 图 像 。 这 里 ,我 
们 来 比较 一 下 学 习 前 和 学 习 后 的 权重 ,结果 如 图 7-24 所 示 ( 源 代码 在 ch07/ 
visualize filter.py 中 )。 

图 7-24 中 ， 学 习 前 的 滤波 器 是 随机 进行 初始 化 的 ， 所 以 在 黑白 的 浓淡 上 
没有 规律 可 循 ， 但 学 习 后 的 滤波 器 变 成 了 有 规律 的 图 像 。 我 们 发 现 ， 通 过 学 
习 ， 滤 波 右 被 更 新 成 了 有 规律 的 滤波 颖 ， 比 如 从 日 到 黑 渐 变 的 滤波 右 、 售 有 
块 状 区 域 ( 称 为 blob) 的 滤波 器 等 。 
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图 7-24 学 习 前 和 学 习 后 的 第 1 层 的 卷 积 层 的 权重 : 虽然 权重 的 元 素 是 实数 ， 但 是 在 图 像 
的 显示 上 ， 统 一 将 最 小 值 显示 为 黑色 (0)， 最 大 值 显 示 为 白色 (255) 
































如 果 要 问 图 7-24 中 右边 的 有 规律 的 滤波 带 在 “观察 ” 什么， 答案 就 是 它 
在 观察 边缘 (颜色 变化 的 分 界线 ) 和 斑 块 (局 部 的 块 状 区 域 ) 等 。 比 如 ， 左 半 
部 分 为 日 色 、 右 半 部 分 为 黑色 的 滤波 天 的 情况 下 ， 如 图 7-25 所 示 ， 会 对 垂直 
方向 上 的 边 绿 有 啊 应 。 


| NH | ó 

4 —|u 

| Ed DEUM, 对 垂直 方向 上 

T 的 边缘 有 响应 
A A 输出 图 像 1 


MAENG N 
= |. Á 9 


E "-A 
滤波 器 2 E WE unen 


对 水 平方 向 上 


输出 图 像 2 





图 7-25 对 水 平方 向 上 和 垂直 方向 上 的 边 绿 有 响应 的 滤波 器 : 输出 图 像 1 中 ， 垂 直方 各 的 
边 绿 上 出 现 日 色 像素 ， 和 输出 图 像 2 中 ， 水 平 万 向 的 边缘 上 出 现 很 多 日 色 像素 
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图 7-25 中 显示 了 选择 两 个 学 习 完 的 滤波 右 对 输入 图 像 进行 卷 积 处 理 时 的 
Ro RITER “滤波 船 1 对 垂直 方向 上 的 边 绿 有 啊 应 , WEA” XKP 
方向 上 的 边 绿 有 啊 应 。 

由 此 可 知 ， 卷 积 层 的 滤波 融会 提取 边缘 或 斑 块 等 原始 信息 。 而 刚才 实现 
的 CNN 会 将 这 些 原始 信息 传递 给 后 面 的 层 。 








7.6.2 ”基于 分 层 结构 的 信息 提取 


上 面 的 结果 是 针对 第 1 层 的 卷 积 层 得 出 的 。 第 1 层 的 卷 积 层 中 提取 了 边 
缘 或 王 块 等 “低级 ”信息 ， 那 么 在 堆 全 了 多 层 的 CNN 中 ,各 层 中 又 会 提取 什 
么 样 的 信息 呢 ? 根据 深度 学 习 的 可 视 化 相关 的 研究 ””， 随 着 层次 加 深 ， 提 
取 的 信息 (正确 地 讲 ， 是 反映 强烈 的 神经 元 ) 也 越 来 越 抽象 。 

图 7-26 中 展示 了 进行 一 般 物 体 识别 (车 或 狗 等 ) 的 8 层 CNN。 这 个 网 络 
结构 的 名 称 是 下 一 节 要 介绍 的 AlexNet。AlexNet MA 24 WHEE [SRR 
层 和 池 化 层 , 最 后 经 过 全 连接 层 输出 结果 。 图 7-26 的 方块 表示 的 是 中 间 数 据 ， 
对 于 这 些 中 间 数 据 ， 会 连续 应 用 卷 积 运算 。 









































7-26 ”CNN 的 卷 积 层 中 提取 的 信息 。 第 1 层 的 神经 元 对 边 绿 或 斑 块 有 响应 ， 第 3 层 对 纹 
理 有 了 响应， 第 5 层 对 物体 部 件 有 了 响 应， 最 后 的 全 连接 层 对 物体 的 类 别 ( 狗 或 车 ) 有 
响应 (图 像 引 用 自 文献 [19]) 
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如 图 7-26 所 示 ， 如 果 堆 释 了 多 层 卷 积 层 ， 则 随 着 层次 加 深 , 提取 的 信息 
也 愈加 复杂 、 抽 和 象 ， 这 是 深度 学 习 中 很 有 意思 的 一 个 地 方 。 最 开始 的 层 对 简 
单 的 边 绿 有 了 啊 应 ， 接 下 来 的 层 对 纹理 有 啊 应 ， 上 再 后 面 的 层 对 更 加 复杂 的 物体 
见 件 有 啊 应 。 也 就 是 说 ， 随 着 层次 加 深 ， 神经 元 从 简单 的 形状 向 “高 级 ”信息 
变化 。 换 句 话 说， 就 像 我们 理解 东西 的 “会 义 ” 一样 , 啊 应 的 对 象 在 逐渐 变化 。 

















7.7 具有 代表 性 的 CNN 





关于 CNN， 运 今 为 止 已 经 提出 了 各 种 网 络 结构 。 这 里 ,我们 介绍 其 中 
特别 重要 的 两 个 网 络 ， 一 个 是 在 1998 年 首次 被 提出 的 CNN 元 祖 LeNete， 
另 一 个 是 在 深度 学 习 受 到 关注 的 2012 年 被 提出 的 AlexNet2。 











7.7.1 LeNet 

LeNet 在 1998 年 被 提出 ， 是 进行 手写 数字 识别 的 网 络 。 如 图 7-27 所 示 ， 
它 有 连续 的 卷 积 层 和 池 化 层 (正确 地 讲 ， 是 只 “ 抽 选 元 了 素 ”的 子 采 样 层 )， 最 
后 经 全 连接 层 输出 结果 。 


C3: f. maps 16@10x10 
C1: feature maps S4: f. maps 16@5x5 
6@28x28 


CS: layer F6: layer OUTPUT 
84 10 


Salat 120 

le A 
TA 
T 


| 
| | | Full connection | Gaussian connections 
Convolutions Subsampling Convolutions Subsampling Full connection 





7-27 LeNet 的 网 络 结构 (引用 自 文献 [20] ) 


和 “现在 的 CNN” 相 比 ，LeNet 有 几 个 不 同 点 。 第 一 个 不 同 点 在 于 激活 
PEZ. LeNet 中 使 用 sigmoid 函数 ， 而 现在 的 CNN 中 主要 使 用 ReLU 函数 。 
此 外 ， 原 始 的 LeNet 中 使 用 子 采样 (subsampling) 缩 小 中 间 数 据 的 大 小 ， 而 
现在 的 CNN 中 Max 池 化 是 主流 。 
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综 上 ，LeNet 与 现在 的 CNN 虽 然 有 些许 不 同 , 但 差别 并 不 是 那么 大 。 
想到 LeNet 是 20 多 年 前 提出 的 最 早 的 CNN， 还 是 很 令 人 称奇 的 。 


7.7.2 AlexNet 


在 LeNet 问 世 20 多 年 后 ，AlexNet 被 发 布 出 来 。AlexNet 是 引发 深度 学 
习 热 漳 的 导火线 , 不 过 它 的 网 络 结构 和 LeNet 基本 上 没有 什么 不 同 , 如 图 7-28 
FTA 


fully 
connected 


IN 3 i 
P: 1000 


256 4096 4096 




















max 
pooling 








7-28 AlexNet (根据 文献 [21] 生成 ) 


AlexNet 共有 多 个 卷 积 层 和 池 化 屋 ， 最 后 经 由 全 连接 层 输出 结果 。 虽 人 然 
结构 上 AlexNet 和 LeNet 没 有 大 的 不 同 , 但 有 以 下 几 点 差异 。 





e 激活 函数 使 用 ReLU。 
e 使 用 进行 局 部 正规 化 的 LRN (Local Response Normalization) Æ, 
e 使 用 Dropout (6.4.3 7F )。 





如 上 所 述 ， 关 于 网 络 结构 ，LeNet 和 AlexNet 没有 太 大 的 不 同 。 但 是 ， 
围绕 它们 的 环境 和 计算 机 技术 有 了 很 大 的 进步 。 具 体 地 说 ， 现 在 任何 人 都 可 
以 获得 大 量 的 数据 。 而 且 ， 擅 长 大 规模 并 行 计算 的 GPU 得 到 普及 ， 高 速 进 
行 大 量 的 运算 已 经 成 为 可 能 。 大 数据 和 GPU 已 成 为 深度 学 习 发 展 的 巨大 的 
原动力 。 
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大 多 数 情 况 下 , 深度 学 习 ( 加 深 了 层次 的 网 络 ) 存在 大 量 的 参数 。 因 此 ， 
学 习 需 要 大 量 的 计算 ， 并 且 需 要 使 那些 参数 “满意 ”的 大 量 数 据 。 可 
以 说 是 GPU 和 大 数据 给 这 些 课题 市 来 了 布 望 。 





7.8 ”小 结 


本 章 介 绍 了 CNN。 构 成 CNN 的 基本 模块 的 卷 积 层 和 池 化 层 虽 然 有 些 复 
杂 ， 但 是 一 旦 理解 了 ， 之 后 就 只 是 如 何 使 用 它们 的 问题 了 。 本 章 为 了 使 读者 
在 实现 层面 上 理解 卷 积 层 和 池 化 层 ， 花 了 不 少时 间 进 行 介绍 。 在 图 像 处 理 领 
域 ， 几 乎 毫 无 例外 地 都 会 使 用 CNN。 请 扎实 地 理解 本 章 的 内 容 ， 然 后 进入 


最 后 一 章 的 学 习 。 








本 章 所 学 的 内 容 


CNN 在 此 前 的 全 连接 层 的 网 络 中 新 增 了 卷 积 层 和 池 化 层 。 
使 用 im2cot 函数 可 以 简单 、 高 效 地 实现 卷 积 层 和 池 化 层 。 


通过 CNN 的 可 视 化 ， 可 知 随 着 层次 变 深 ， 提 取 的 信息 愈加 高 级 。 
LeNet 和 AlexNet 是 CNN 的 代表 性 网 络 。 
在 深度 学 习 的 发 展 中 ， 大 数据 和 GPU 做 出 了 很 大 的 贡献 。 





图 灵 社 区 会 员 zengchang94(zengchang.elec@gmail.com) 专 享 尊重 
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8.1 加深 网 络 


天 于 神经 网 络 ， 我 们 已 经 学 了 很 多 东西 ， 比 如 构成 神经 网 络 的 各 种 层 、 
学 习 时 的 有 歼 技 巧 、 对 图 像 特别 有 效 的 CNN 、 参 数 的 最 优化 方法 等 ， 这 些 
都 是 深度 学 习 中 的 重要 技术 。 本 市 我 们 将 这 些 已 经 学 过 的 技术 汇总 起 来 ， 创 
建 一 个 深度 网 络 ， 挑 战 MNIST 数 据 集 的 手写 数字 识别 。 





8.1.1 [RAIS Az 


话 不 多 说 ， 这 里 我 们 来 创建 一 个 如 图 8-1 所 示 的 网 络 结构 的 CNN (一 个 
比 之 前 的 网 络 都 深 的 网 络 )。 这 个 网 络 参 考 了 下 一 节 要 介绍 的 VGGQ。 

如 图 8-1 所 示 ， 这 个 网 络 的 层 比 之 前 实现 的 网 络 都 更 深 。 这 里 使 用 的 卷 
积 层 全 都 是 3 x 3 的 小 型 滤波 器 ， 特 点 是 随 着 层 的 加 深 ， 通 道 数 变 大 ( 卷 积 
层 的 通道 数 从 前 面 的 层 开始 按 顺 序 以 16、16、32、32、64、64 的 方式 增加 )。 
此 外 , 如 图 8-1 所 示 , 搬入 了 池 化 层 , 以 逐渐 减 小 中 间 数 据 的 空间 大 小 ; 并 且 ， 
后 面 的 全 连接 层 中 使 用 了 Dropout 层 。 








Conv ReLU Conv ReLU Pool Conv ReLU Conv ReLU Pool 


Conv ReLU Conv ReLU Pool Affine ReLU Dropout Affine Dropout Softmax 





这 个 网 络 使 用 He 初始 值 作为 权重 的 初始 值 ， 使 用 Adam 更 新 权重 参数 。 
把 上 述 内 容 总 结 起 来 ， 这 个 网 络 有 如 下 特点 。 











基于 3X3 的 小 型 滤波 器 的 卷 积 层 
激活 函数 是 ReLU。 

e 全 连接 层 的 后 面 使 用 Dropout Æ- 
e 基于 Adam 的 最 优化 。 

e 使 用 He 初始 值 作为 权重 初始 值 。 


从 这 些 特征 中 可 以 看 出 ， 图 8-1 的 网 络 中 使 用 了 多 个 之 前 介绍 的 神经 网 
络 技术 。 现 在 ， 我 们 使 用 这 个 网 络 进行 学 习 。 先 说 一 下 绪论 ， 这 个 网 络 的 识 
SABE 99.38% “， 可 以 说 是 非常 优秀 的 性 能 了 ! 














(D 最 终 的 识别 精度 有 少许 偏差 ， 不 过 在 这 个 网 络 中 ,识别 精 度 大 体 上 都 会 超过 99%。 
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实现 图 8-1 的 网 络 的 源 代 码 在 chg8/deep_convnet.py 中 ， 训 练 用 的 
代码 在 ch98/train_deepnet .py 中 。 虽 然 使 用 这 些 代码 可 以 重 现 这 里 
进行 的 学 习 ， 不 过 深度 网 络 的 学 习 需 要 花费 较 多 的 时 间 (大 概要 半天 
IE), A+ chO8/deep conv net params.pkl 的 形式 给 出 了 学 习 完 
的 权重 参数 。 刚 才 的 deep_convnet ,py 备 有 读 入 学 习 完 的 参数 的 功能 ， 
请 根据 需要 进行 使 用 。 


` 








图 8-1 的 网 络 的 错误 识别 率 只 有 0.62%。 这 里 我 们 实际 看 一 下 在 什么 样 
的 图 像 上 发 生 了 识别 错误 。 图 8-2 中 显示 了 识别 错误 的 例子 。 
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图 8-2 识别 错误 的 图 像 的 例子 : 各 个 图 像 的 左上 角 显 示 了 正确 解 标签 ， 右 下 角 显 示 了 本 
网 络 的 推理 结果 























S 




















观察 图 8-2 可 知 ， 这 些 图 像 对 于 我 们 人 类 而 言 也 很 难 判 断 。 实 际 上 ， 这 里 
面 有 几 个 图 像 很 难 判断 是 哪个 数字 , 即使 是 我 们 人 类 , 也 同样 会 犯 “ 识 别 错误 ”。 
比如 ， 左 上 角 的 图 像 (正确 解 是 “6”) 看 上 去 像 "0"， 它 劳 边 的 图 像 (正确 解 是 
“37”) 看 上 去 像 D. WEE, “IAT “0” 0 "6^. "3" 和 “57 的 组 合 比较 
容易 混 消 。 通 过 这 些 例子 ， 相 信 大 家 可 以 理解 为 何 会 发 生 识 别 错误 了 吧 。 

这 次 的 猴 度 CNN 尽 管 识 别 精 度 很 高 ， 但 是 对 于 某 些 图 像 ， 也 犯 了 和 人 
类 同样 的 “识别 错误 ”。 从 这 一 点 上 ， 我 们 也 可 以 感受 到 深度 CNN rPZRUBUR 
巨大 的 可 能 性 。 
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8.1.2 ”进一步 提高 识别 精度 

在 一 个 标题 为 “What is the class of this image ?" WR ? 上， 以 排行 
榜 的 形式 刊登 了 目前 为 止 通过 论文 等 渠道 发 表 的 针对 各 种 数据 集 的 方法 的 识 
别 精度 (图 8-3)。 





MNIST 
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图 8-3 ”针对 MNIST 数据 集 的 各 种 方法 的 排行 ( 引 自 文献 [32]: 2016 F6 H ) 


Wh # Al 8-3 By HE fr 25 AR, 可 以 发 现 “Neural Networks" “Deep” 
“Convolutional ”等 关键 词 特别 显眼 。 实 际 上 ， 排 行 榜 上 的 前 几 名 大 都 是 基 
于 CNN 的 方法。 顺便 说 一 下 ,截止 到 2016 年 6 月 ， 对 MNIST 数 据 集 的 最 高 
识别 精度 是 99.79% (错误 识别 率 为 0.21%%),， 该 方法 也 是 以 CNN 为 基础 的 外 。 
Mit, CHEY CNN 并 不 是 特别 深层 的 网 络 ( 卷 积 层 为 2 层 、 全 连接 层 为 2 层 
的 网 络 )。 
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对 于 MNIST 数 据 集 ， 层 不 用 特别 深 就 获得 了 (目前 ) 最 高 的 识别 精 
度 。 一 般 认 为 ， 这 是 因为 对 于 手写 数字 识别 这 样 一 个 比较 简单 的 任 
务 ， 没 有 必要 将 网 络 的 表现 力 提高 到 那么 高 的 程度 。 因 此 ， 可 以 说 
加 深层 的 好 处 并 不 大 。 而 之 后 要 介绍 的 大 规模 的 一 般 物体 识别 的 情况 ， 
因为 问题 复杂 ， 所 以 加 深层 对 提高 识别 精度 大 有 神 益 。 





参考 刚才 排行 榜 中 前 几 名 的 方法 ， 可 以 发 现 进 一 步 提 高 识别 精度 的 技术 和 
线索 。 比 如 ,集成 学 习 、 学 习 率 衰减 、Data Augmentation (数据 扩充 ) 等 都 有 
助 于 提高 识别 精度 。 尤 其 是 Data Augmentation, 虽然 方法 很 简单 ， 但 在 提高 
识别 精度 上 效果 显著 。 

Data Augmentation 基于 算法 “人 为 地 ”扩充 输入 图 像 ( 训 练 图 像 )。 具 
体 地 说 ， 如 图 8-4 所 示 ， 对 于 输入 图 像 ， 通 过 施加 旋转 、 垂 直 或 水 平方 向上 
的 移动 等 微小 变化 , 增加 图 像 的 数量 。 这 在 数据 集 的 图 像 数量 有 限时 尤其 有 效 。 


RESTER E Le 























基于 平移 的 变形 


8-4 Data Augmentation 的 例子 





除了 如 图 8-4 所 示 的 变形 之 外 ，Data Augmentation 还 可 以 通过 其 他 各 
种 方法 扩充 图 像 ， 比 如 裁剪 图 像 的 “crop 处 理 ” 将 图 像 左右 翻转 的 “fip 处 
p" ”等 。 对 于 一 般 的 图 像 ， 施 加 亮度 等 外 观 上 的 变化 、 放 大 缩小 等 尺度 上 
的 变化 也 是 有 效 的 。 不 管 怎 样 , 通过 Data Augmentation 巧妙 地 增加 训练 图 像 ， 
就 可 以 提高 次 度 学 习 的 识别 精度 。 虽 然 这 个 看 上 去 只 是 一 个 简单 的 技巧 ， 不 
过 经 常会 有 很 好 的 效果 。 这 里 ,我们 不 进行 Data Augmentation 的 实现 ,不 























(D flip 处 理 只 在 不 需要 考虑 图 像 对 称 性 的 情况 下 有 效 。 
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过 这 个 技巧 的 实现 比较 简单 ， 有 兴趣 的 读者 请 自己 试 一 下 。 


8.1.3 ”加 深层 的 动机 

天 于 加 次 层 的 重要 性 ， 现 状 是 理论 人 斌 究 还 不 够 透彻 。 尽 管 目前 相关 理论 
还 比较 贫乏 ， 但 是 有 几 点 可 以 从 过 往 的 研究 和 实验 中 得 以 解释 (虽然 有 一 些 
直观 )。 本 区 就 加 深层 的 重要 性 ， 给 出 一 些 增 补 性 的 数据 和 说 明 。 

首先 ， 从 以 ILSVRC 为 代表 的 大 规模 图 像 识别 的 比赛 结 采 中 可 以 看 出 加 
深层 的 重要 性 (详细 内 容 请 参考 下 一 他 ) 这 种 比赛 的 结 采 显示 ， 最 近 前 几 名 
的 方法 多 是 基于 深度 学 习 的 ， 并 且 有 逐渐 加 深 网 络 的 层 的 趋势 。 也 就 是 说 ， 
可 以 看 到 层 越 深 ,识别 性 能 也 越 高 。 

下 面 我 们 说 一 下 加 深层 的 好 处 。 其 中 一 个 好 处 就 是 可 以 减少 网 络 的 参数 
数量 。 说 得 详细 一 点 ， 就 是 与 没有 加 深层 的 网 络 相 比 ， 加 深 了 层 的 网 络 可 以 
用 更 少 的 参数 达到 同等 水 平 ( 或 者 更 强 ) 的 表现 力 。 这 一 点 结合 卷 积 运算 中 
的 滤波 可 大 小 来 思考 就 好 理解 了 。 比 如 ， 图 8-5 展 示 了 由 5 x 5 的 滤波 各 构成 
METRE o 
































洽 和 人 数据 省 出 数据 








8-5 5x5 的 卷 积 运算 的 例子 
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这 里 希望 大 家 考虑 一 下 输出 数据 的 各 个 市 点 是 从 输入 数据 的 哪个 区 域 计 
算出 来 的 。 显 然 ， 在 图 8-5 的 例子 中 ， 每 个 输出 市 点 都 是 从 输入 数据 的 某 个 
5 x 5 的 区 域 算 出 来 的 。 接 下 来 我 们 思考 一 下 图 8-6 中 重复 两 次 3 x 3 的 卷 积 
运算 的 情形 。 此 时 , 每 个 输出 节点 将 由 中 间 数 据 的 某 个 3 x 3 的 区 域 计算 出 来 。 
那么 ， 中 间 数 据 的 3 x 3 的 区 域 又 是 由 前 一 个 输入 数据 的 哪个 区 域 计算 出 来 
的 呢 ? 仔细 观察 网 8-6， 可 知 它 对 应 一 个 5 x 5 的 区 域 。 也 就 是 说 ， 图 8-6 的 
输出 数据 是 “观察 ”了 输入 数据 的 某 个 5 x 5 的 区 域 后 计算 出 来 的 。 














mA Be 中 间 数 据 输出 数据 











8-6 ”重复 两 次 3 x 3 的 卷 积 层 的 例子 


一 次 5 x 5 的 卷 积 运算 的 区 域 可 以 由 两 次 3 x 3 的 卷 积 运算 抵 充 。 并 且 ， 
相对 于 前 者 的 参数 数量 25(5 x 5)， 后 者 一 共 是 18(2 x 3 x 3), 通过 蕉 加 卷 
积 层 ， 参 数 数量 减少 了 。 而 且 ， 这 个 参数 数量 之 差 会 随 着 层 的 加 深 而 变 大 。 
比如 ， 重复 三 次 3 x 3 的 卷 积 运算 时 ， 参 数 的 数量 总 共 是 27。 而 为 了 用 一 次 
卷 积 运 算 “ 观 察 ”与 之 相同 的 区 域 ,需要 一 个 7 x 7 的 滤波 器 ， 此 时 的 参数 数 


量 是 49。 


` 








SILE REKIVAM 2 89] Sf ETAR 1 c E. PAR 
= BF (receptive field, 给 神经 元 施加 变化 的 某 个 局 部 空间 区 域 )。 并 且 ， 
通过 时 加 层 ， 将 ReLU 等 激活 函数 夹 在 卷 积 层 的 中 间 ， 进 一 步 提高 
了 网 络 的 表现 力 。 这 是 因为 向 网 络 添 加 了 基于 激活 函数 的 “ 非 线 性 ” 
表现 力 ， 通 过 非 线 性 函数 的 又 加 ， 可 以 表现 更 加 复杂 的 东西 。 
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JINR E BS ny A a BE OD CD E SRA IR De BY PFE EE , 
通过 加 深层 ， 可 以 减少 学 习 数 据 ， 从 而 高 效 地 进行 学 习 。 为 了 直观 地 理解 这 
一 点 ， 大 家 可 以 回忆 一 下 7.6 市 的 内 容 。7.6 广 中 介绍 了 CNN 的 卷 积 层 会 分 
层次 地 提取 信息 。 具 体 地 说 ， 在 前 面 的 卷 积 层 中 ， 神 经 元 会 对 边缘 等 简单 的 
形状 有 响应 , 随 着 层 的 加 深 , 开始 对 纹理 、 物 体 部 件 等 更 加 复杂 的 东西 有 响应 。 

我 们 先 牢 记 这 个 网 络 的 分 层 结构 ， 然 后 考虑 一 下 “ 狗 ” 的 识别 问题 。 要 
用 浅 层 网 络 解决 这 个 问题 的 话 , 卷 积 层 需 要 一 下 子 理解 很 多 “ 狗 ” 的 特征 。“ 狗 ” 
有 各 种 各 样 的 种 类 , 根据 拍摄 环境 的 不 同 , 外 观 变化 也 很 大 。 因 此 , 要 理解 “ 狗 ” 
的 特征 , 需要 大 量 定 有 差异 性 的 学 习 数 据 , 而 这 会 导致 学 习 需 要 花费 很 多 时 间 。 

不 过 ,通过 加 深 网 络 ， 就 可 以 分 层次 地 分 解 需要 学 习 的 问题 。 因 此 ， 各 
层 需 要 学 习 的 问题 就 变 成 了 更 简单 的 问题 。 比 如 ， 最 开始 的 层 只 要 专注 于 学 
习 边 缘 就 好 ， 这 样 一 来 ， 只 需 用 较 少 的 学 习 数 据 就 可 以 高 效 地 进行 学 习 。 这 
是 为 什么 呢 ?” 因 为 和 印 有 “ 狗 ” 的 照片 相 比 ， 包 含 边缘 的 图 像 数 量 众 多 ， 并 
日 边缘 的 模式 比 “ 狗 ”的 模式 结构 更 人 简单。 

通过 加 深层 ， 可 以 分 层次 地 传递 信息 ， 这 一 点 也 很 重要 。 比 如 ， 因 为 提 
取 了 边缘 的 层 的 下 一 层 能 够 使 用 边缘 的 信息 ， 所 以 应 该 能 够 高 效 地 学 习 更 加 
高 级 的 模式 。 也 就 是 说 ， 通 过 加 深层 ， 可 以 将 各 层 要 学 习 的 问题 分 解 成 容易 
解决 的 简单 问题 ， 从 而 可 以 进行 高 效 的 学 习 。 

以 上 就 是 对 加 深层 的 重要 性 的 增补 性 说 明 。 不过， 这 里 需要 注意 的 是 ， 
近 几 年 的 深层 化 是 由 大 数据 、 计 算 能 力 等 即便 加 深层 也 能 正确 地 进行 学 习 的 
新 技术 和 环境 支撑 的 。 












































8.2 ”深度 学 习 的 小 历史 


一 般 认 为 ， 现 在 深度 学 习 之 所 以 受到 大 量 关 注 ， 其 契机 是 2012 年 举办 
的 大 规模 图 像 识别 大 赛 ILSVRC (ImageNet Large Scale Visual Recognition 
Challenge)。 在 那 年 的 比赛 中 ， 基 于 次 度 学 习 的 方法 (通称 AlexNet ) 以 压倒 
性 的 优 执 胜出， 彻底 题 履 了 以 往 的 图 像 识 别 方法 。2012 年 深度 学 习 的 这 场 赣 
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化 成 为 一 个 转折 点 ， 在 之 后 的 比赛 中 ， 深 度 学 习 一 直 活 跃 在 舞台 中 央 。 本 市 
我 们 以 ILSVRC 这 个 大 规模 图 像 识 别 比 赛 为 轴 ， 看 一 下 深度 学 习 最 近 的 发 展 
趋势 。 








8.2.4 ImageNet 


ImageNet 包 是 拥有 超过 100 万 张 图 像 的 数据 集 。 如 图 8-7 所 示 ， 它 包含 
了 各 种 各 样 的 图 像 ， 并 且 每 张 图 像 都 被 关联 了 标签 (类 别名 )。 每 年 都 会 举办 
使 用 这 个 巨大 数据 集 的 ILSVRC 图 像 识 别 大 赛 。 


ZES Is MRU AOT en ARE Nen amm 
9 4» Msi * "ar PER uy. Dn aw. Mer 
vid Wikis vil Wael OS ela cs 


ETEN - placental > eae - canine - working dog dd 
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SOZ af cet oan c Hl 
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vehicle => craft 一 一 watercraft 一 一 AT vessel —— sailboat — trimaran 





8-7 ”大 规模 数据 集 ImageNet 的 数据 例 (引用 自 文献 [25]) 


ILSVRC 大 赛 有 多 个 测试 项 目 ， 其 中 之 一 是 “类 别 分 类 ”(classification)， 
在 该 项 目 中 ,会 进行 1000 个 类 别 的 分 类 ， 比 试 识别 精度 。 我 们 来 看 一 下 最 
近 几 年 的 ISVRC 大 赛 的 类 别 分 类 项 目的 结果 。 图 8-8 中 展示 了 从 2010 年 到 
2015 年 的 优胜 队伍 的 成 绩 。 这 里 , 将 前 5 类 中 出 现 正确 解 的 情况 视 为 “正确 ”， 
此 时 的 错误 识别 率 用 柱 形 图 来 表示 。 

图 8-8 中 需要 注意 的 是 ， 以 2012 年 为 界 ， 之 后 基于 深度 学 习 的 方法 一 直 
居于 首位 。 实 际 上 , 我 们 发 现 2012 年 的 AlexNet 大 幅 降 低 了 错误 识别 率 。 并 且 ， 
此 后 基于 深度 学 习 的 方法 不 断 在 提升 识别 精度 。 特 别 是 2015 年 的 ResNet (一 
个 超过 150 层 的 深度 网 络 ) 将 错误 识别 率 降 低 到 了 3.5%。 据 说 这 个 结 采 其 至 
超过 了 普通 人 的 识别 能 

这 些 年 深度 学 习 取 得 了 不 斐 的 成 绩 ， 其 中 VGG、GoogLeNet ResNet 























已 广为人知 ， 在 与 深度 学 习 有 关 的 各 种 场合 都 会 过 到 这 些 网 络 。 下 面 我 们 就 
来 简单 地 介绍 一 下 这 3 个 有 名 的 网 络 。 


ImageNet Classification top-5 error 
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2010 2011 2012 2013 2014 2014 2015 
(NEC America) (Xerox) (AlexNet) (Clarifi) (VGG) (GoogLeNet) (ResNet) 





28-8 ILSCRV 优胜 队伍 的 成 绩 演变 : 坚 轴 是 错误 识别 率 ， 横 轴 是 年 份 。 横 轴 的 括号 内 
是 队伍 名 或 者 万 法 名 


8.2.2 VGG 


VGG 是 由 卷 积 层 和 池 化 层 构 成 的 基础 的 CNN。 不 过 ， 如 图 8-9 所 示 ， 
它 的 特点 在 于 将 有 权重 的 层 ( 卷 积 层 或 者 全 连接 层 ) 闭 加 至 16 层 (或 者 19 层 )， 
具备 了 深度 (根据 层 的 深度 ， 有 时 也 称 为 “VGG16” 或 “VGG19”)。 

VGG 中 需要 注意 的 地 方 是 ， 基 于 3 x 3 的 小 型 滤波 器 的 卷 积 层 的 运算 是 
连续 进行 的 。 如 图 8-9 所 示 ， 重 复 进 行 “ 卷 积 层 重合 2 次 到 4 次 ， 再 通过 池 化 
层 将 大 小 减 半 ” 的 处 理 ， 最 后 经 由 全 连接 层 输出 结果 。 














VGG 在 2014 年 的 比赛 中 最 终 获 得 了 第 2 名 的 成 绩 (下 一 方 介绍 的 
GoogleNet 是 2014 年 的 第 1 名 )。 虽 然 在 性 能 上 不 及 GoogleNet， 但 
因为 VGG 结构 简单 ， 应 用 性 强 ， 所 以 很 多 技术 人 员 都 喜欢 使 用 基于 
VGG 的 网 络 。 
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8-9 VGG (根据 文献 [22] 生成) 


8.2.3 GoogLeNet 


GoogLeNet 的 网 络 结构 如 图 8-10 所 示 。 图 中 的 矩形 表示 卷 积 层 、 池 化 
层 等 。 








8-10 GoogLeNet (引用 自 文献 [23]) 











只 看 图 的 话 ， 这 似乎 是 一 个 看 上 去 非常 复杂 的 网 络 结构 ， 但 实际 上 它 基 
本 上 和 之 前 介绍 的 CNN 结 构 相 同 。 不 过 ，GoogLeNet 的 特征 是 ， 网 络 不 仪 
EAH EARE, Ei EEA REO E) 

GoogLeNet Æ [5] EA “WE”, XUPRZJ “Inception 2444”, LAK 8-11 Er 
示 的 结构 为 基础 。 

如 图 8-11 所 示 ，Inception 结 构 使 用 了 多 个 大 小 不 同 的 滤波 带 ( 和 池 化 )， 
最 后 再 合并 它们 的 结果 。GoogLeNet 的 特征 就 是 将 这 个 Inception 结 构 用 作 
一 个 构件 (构成 元 素 )。 此 外 , 在 GoogLeNet 中 ,很 多 地 方 都 使 用 了 大 小 为 














Filter 
concatenation 


1x1 convolutions 3x3 convolutions 5x5 convolutions 3x3 max pooling 


Previous layer 


8-11 GoogLeNet BS Inception 2444 ( 5|FAE XE [23] ) 








1x LANDER re. RS x 1 的 卷 积 运算 通过 在 通道 方向 上 减 小 大 小 ， 
有 助 于 减少 参数 和 实现 高 速 化 处 理 (具体 请 参考 原始 论文 )。 





8.2.4 ResNet 


ResNet “是 微软 团队 开发 的 网 络 。 它 的 特征 在 于 具有 比 以 前 的 网 络 更 
深 的 结构 。 

我 们 已 经 知道 加 深层 对 于 提升 性 能 很 重要 。 但 是 ， 在 深度 学 习 中 ， 过 度 
加 深层 的 话 , 很 多 情况 下 学 习 将 不 能 顺利 进行 , 导致 最 终 性 能 不 佳 。ResNet 中 ， 
为 了 解决 这 类 问题 ， 导 入 了 “快捷 结构 ”( 也 称 为 “捷径 ”或 “小 路 ”)。 叶 入 这 
个 快捷 结构 后 ， 束 可 以 随 着 层 的 加 深 而 不 断 提 高 性 能 了 (当然 层 的 加 深 也 
是 有 限度 的 )。 

如 图 8-12 所 示 ， 快 捷 结 构 模 跨 ( 跳 过 ) 了 输入 数据 的 卷 积 屋 ， 将 输入 x 合 
计 到 和 输出。 

图 8-12 中 ， 在 连续 2 层 的 卷 积 层 中 ， 将 输入 z 跳 看 连接 至 2 层 后 的 输出 。 
这 里 的 重点 是 , 通过 快捷 结构 , 原来 的 2 层 卷 积 层 的 输出 (zx) 变 成 了 (x) + xc 
通过 引入 这 种 快捷 结构 ， 即 使 加 深层 ， 也 能 高 效 地 学 习 。 这 是 因为 ,通过 快 
捷 结 构 ， 反 向 传播 时 信号 可 以 无 肾 减 地 传递 。 
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因为 快捷 结构 只 是 原封 不 动 地 传递 输入 数据 ， 所 以 反 向 传播 时 会 将 
来 自 上 游 的 梯度 原封 不 动 地 传 向 下 游 。 这 里 的 重点 是 不 对 来 自 上 游 
的 梯度 进行 任何 处 理 ， 将 其 原封 不 动 地 传 向 下 游 。 因 此 ， 基 于 快捷 
结构 ， 不 用 担心 梯度 会 变 小 (或 变 大 )， 能 够 向 前 一 层 传 递 有 意义 
的 梯度 ”"。 通 过 这 个 快捷 结构 ， 之 前 因为 加 深层 而 导致 的 梯度 变 小 的 
梯度 消失 问题 就 有 望 得 到 缓解 。 





ResNet 以 前 面 介 绍 过 的 VGG 网 络 为 基础 ， 引 入 快捷 结构 以 加 深层 ， 其 
结果 如 图 8-13 所 示 。 





8-13 ResNet(5IFHEIX BA [24]): 方块 对 应 3x3 的 卷 积 层 ， 其 特征 在 于 引入 了 横 跨 层 


的 快捷 结构 





如 图 8-13 所 示 ，ResNet 通过 以 2 个 卷 积 层 为 间隔 跳跃 式 地 连接 来 加 次 层 。 
另外 , 根据 实验 的 结果 , 即便 加 深 到 150 层 以 上 , 识别 精度 也 会 持续 提高 。 并 且 ， 
TEILSVRC AEF, ResNet 的 错误 识别 率 为 3.5%( 前 5 类 中 包含 正确 解 这 一 
精度 下 的 错误 识别 率 ), 令 人 称奇 。 
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实践 中 经 常会 灵活 应 用 使 用 ImageNet 这 个 巨大 的 数据 集 学 习 到 的 权 
重 数据 ， 这 称 为 迁移 学 习 ， 将 学 习 完 的 权重 ( 的 一 部 分 ) 复 制 到 其 他 
神经 网 络 ， 进 行 再 学 习 (fine tuning)。 比 如 ， 准 备 一 个 和 VGG 相同 
结构 的 网 络 ， 把 学 习 完 的 权重 作为 初始 值 ， 以 新 数据 集 为 对 象 ， 进 
行 再 学 习 。 迁 移 学 习 在 手头 数据 集 较 少 时 非常 有 效 。 








随 看 大 数据 和 网 络 的 大 规模 化 ， 次 度 学 习 需 要 进行 大 量 的 运算 。 虽 然 到 
目前 为 止 ， 我 们 都 是 使 用 CPU 进行 计算 的 ,但 现实 是 只 用 CPU 来 应 对 深度 
学 习 无 法 令 人 放心 。 实 际 上 ,环视 一 下 周围 ， 大 多 数 深 度 学 习 的 框架 都 文 持 
GPU (Graphics Processing Unit)， 可 以 高 速 地 处 理 大 量 的 运算 。 另 外 ， 最 
Jr AEA IT S Ie GPU MS La ENO EA. KERRE 
点 放 在 深度 学 习 的 计算 的 高 速 化 上 ， 然 后 逐步 展开 。 深 度 学 习 的 实现 在 8.1 
方 就 结束 了 ， 本 市 要 讨论 的 高 速 化 ( 文 持 GPU 等 ) 并 不 进行 实现 。 











8.3.1 需要 努力 解决 的 问题 

在 介绍 深度 学 习 的 高 速 化 之 前 ， 我 们 先 来 看 一 下 深度 学 习 中 什么 样 的 处 
理 比较 耗 时 。 图 8-14 中 以 AlexNet 的 forward 处 理 为 对 象 ， 用 人 饼 图 展示 了 各 
层 所 耗费 的 时 间 。 

从 图 中 可 知 ，AlexNex 中 ,， 大 多 数 时 间 都 被 耗费 在 卷 积 层 上 。 实 际 上 ， 
卷 积 层 的 处 理 时 间 加 起 来 占 GPU 整体 的 95%， 占 CPU 整体 的 89%1 因此 ， 
如 何 高 速 、 高 效 地 进行 卷 积 层 中 的 运算 是 深度 学 习 的 一 大 识 题 。 虽 然 图 8-14 
是 推理 时 的 结果 ， 不 过 学 习 时 也 一 样 ， 卷 积 层 中 会 耗费 大 量 时 间 。 























正如 7.2 节 介绍 的 那样 , 卷 积 层 中 进行 的 运算 可 以 追溯 至 乘积 累加 运算 。 
因此 ， 深 度 学 习 的 高 速 化 的 主要 课题 就 变 成 了 如 何 高 速 、 高 效 地 进 
行 大 量 的 乘积 累加 运算 。 





GPU Forward Time Distribution 





8-14 AlexNet AY forward 处 理 中 各 层 的 时 间 比 : 左边 是 使 用 GPU 的 情况 ， 右 边 是 使 
用 CPU 的 情况 。 图 中 的 ”conv 对 应 卷 积 层 ， pool ”对 应 池 化 层 ,，“fc” 对 应 全 
连接 层 ,“norm ”对 应 正规 化 层 ( 引 用 自 文献 [26] ) 


8.3.2 ”基于 GPU 的 高 速 化 


GPU 原 本 是 作为 图 像 专 用 的 显卡 使 用 的 , 但 最 近 不 仪 用 于 图 像 处 理 ， 
也 用 于 通用 的 数值 计算 。 由 于 GPU 可 以 高 速 地 进行 并 行 数值 计算 ， 因此 
GPU 计算 的 日 标 就 是 将 这 种 压倒 性 的 计算 能 力 用 于 各 种 用 途 。 所 请 GPU 计算 ， 
是 指 基于 GPU 进行 通用 的 数值 计算 的 操作 。 

深度 学 习 中 需要 进行 大 量 的 乘积 累加 运算 (或 者 大 型 矩阵 的 乘积 运算 )。 
这 种 大 量 的 并 行 运算 正 是 GPU 所 擅长 的 ( 反 过 来 说 ，CPU 比较 擅长 连续 的 、 
复杂 的 计算 )。 因 此 ， 与 使 用 单个 CPU 相 比 ， 使 用 GPU 进行 深度 学 习 的 运算 
可 以 达到 惊人 的 高 速 化。 下 面 我 们 就 来 看 一 下 基于 GPU 可 以 实现 多 大 程度 的 
高 速 化 。 图 8-15 是 基于 CPU 和 GPU 进行 AlexNet 的 学 习 时 分 别 所 需 的 时 间 。 

从 图 中 可 知 ， 使 用 CPU 要 花 40 天 以 上 的 时 间 ， 而 使 用 GPU 则 可 以 将 时 
间 缩 短 至 6 天 。 此 外 ,还 可 以 看 出 ,通过 使 用 cuDNN 这 个 最 优化 的 库 ， 可 
以 进一步 实现 高 速 化 。 

GPU 主要 由 NVIDIA 和 AMD 两 家 公司 提供 。 虽 然 两 家 的 GPU 都 可 以 
用 于 通用 的 数值 计算 ， 但 与 深度 学 习 比 较 “ 亲 近 ” 的 是 NVIDIA 的 GPU。 实 
际 上 ， 大 多 数 深度 学 习 框 架 只 受益 于 NVIDIA 的 GPU。 这 是 因为 深度 学 习 
的 框架 中 使 用 了 NVIDIA 提供 的 CUDA 这 个 面向 GPU 计算 的 综合 开发 环境 。 
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图 8-15 中 出 现 的 cuDNN 是 在 CUDA 上 运行 的 库 ， 它 里 面 实 现 了 为 深度 学 习 
最 优化 过 的 函数 等 。 


Training AlexNet 


b. 


OM no SI 


16-core Xeon CPU Titan Titan Black Titan X 
CuDNN CuDNN 





8-15 ”使 用 CPU AY “16-core Xeon CPU" 47 GPU RS “Titan 系列 进行 AlexNet 的 
学 习 时 分 别 所 需 的 时 间 ( 引 用 自 文献 [27]) 


通过 im2col 可 以 将 卷 积 层 进行 的 运算 转换 为 大 型 矩阵 的 乘积 。 这 个 
im2col 方 式 的 实现 对 GPU 来 说 是 非常 方便 的 实现 方式 。 这 是 因为 ， 
相 比 按 小 规模 的 单位 进行 计算 ，GPU 更 擅长 计算 大 规模 的 汇总 好 的 
数据 。 也 就 是 说 , 通过 基于 im2col 以 大 型 矩阵 的 乘积 的 方式 汇总 计算 ， 
更 容易 发 挥 出 GPU 的 能 力 。 





8.3.3 ”分 布 式 学 习 

虽然 通过 GPU 可 以 实现 深度 学 习 运 算 的 高 速 化 ,但 即便 如 此 ， 当 网 络 
较 浆 时 ， 和 学习 还 是 需要 几 天 到 几 周 的 时 间 。 并 且 ， 前 面 也 次 过 ， 猴 度 学 习 伴 
随 春 很 多 试 错 。 为 了 创建 恨 好 的 网 络 ， 需 要 反复 进行 各 种 答 试 ， 这 样 一 来 就 
必然 会 产生 尽 可 能 地 缩短 一 次 学 习 所 需 的 时 间 的 要 求 。 于 是 ， 将 次 度 学 习 的 
学 习 过 程 扩展 开 来 的 想法 (也 就 是 分 布 式 学习 ) 束 变 得 重要 起 来 。 

为 了 进一步 提高 深 度 学 习 所 需 的 计算 的 速度 ， 可 以 考虑 在 多 个 GPU 或 


























者 多 台 机 如 上 进行 分 布 式 计算 。 现 在 的 深度 学 习 框 染 中 ， 出 现 了 好 几 个 支持 
多 GPU 或 者 多 机 妖 的 分 布 式 学 习 的 框架 。 其 中 ，Google 的 TensorFlow、 微 
软 的 CNTK (Computational Network Toolki) 在 开发 过 程 中 高 度 重视 分 布 式 
学 习 。 以 大 型 数据 中 心 的 低 延 迟 ， 高 否 吐 网 络 作 为 支撑 ， 基 于 这 些 框架 的 分 
MAF YEMA RAN s 

基于 分 布 式 学 习 ， 可 以 达到 何 种 程度 的 高 速 化 呢 ? 18-16 PER FEF 
TensorFlow 的 分 布 式 学 习 的 效果 。 
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图 8-16 基于 TensorFlow 的 分 布 式 学 习 的 效果 : 横 轴 是 GPU 的 个 数 ， 纵 轴 是 与 单个 
GPU 相 比 时 的 高 速 化 率 ( 引 用 自 文献 [28] ) 


如 图 8-16 所 示 ， 随 看 GPU 个 数 的 增加 ， 学习 速度 也 在 提高 。 实 际 上 ， 
与 使 用 1 个 GPU 时 相 比 ,使 用 100 个 GPU( 设 置 在 多 台 机 器 上 ， 共 100 个 ) 
似乎 可 以 实现 56 倍 的 高 速 化 ! 这 意味 着 之 前 花费 7 天 的 学 习 只 要 3 个 小 时 就 
能 完成 ， 充 分 说 明了 分 布 式 学 习 惊人 的 效果 。 

关于 分 布 式 学 习 ,“ 如 何 进 行 分 布 式 计算 ”是 一 个 非常 难 的 课题 。 它 包 
含 了 机 器 间 的 通信 、 数 据 的 同步 等 多 个 无 法 轻易 解决 的 问题 。 可 以 将 这 些 难 
题 都 交 给 TensorFlow 等 优秀 的 框架 。 这 里 ， 我 们 不 讨论 分 布 式 学 习 的 细节 。 
关于 分 布 式 学习 的 技术 性 内 容 ， 请 参考 TensorFlow 的 技术 论文 (白皮书 ) 等 。 
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8.3.4 ”运算 精度 的 位 数 缩减 


在 深度 学 习 的 高 速 化 中 ， 除 了 计算 量 之 外 ， 内 存 容 量 、 总 线 带宽 等 也 有 
可 能 成 为 瓶颈 。 关 于 内 存 容 量 ， 需 要 考虑 将 大 量 的 权重 参数 或 中 间 数 据 放 在 
内 存 中 。 关 于 总 线 带宽 , 当 流 经 GPU (或 者 CPU ) 总 线 的 数据 超过 某 个 限制 时 ， 
就 会 成 为 瓶颈 。 考 虑 到 这 些 情况 , 我 们 希望 尽 可 能 减少 流 经 网 络 的 数据 的 位 数 。 

计算 机 中 为 了 表示 实数 ， 主 要 使 用 64 位 或 者 32 位 的 浮 点 数 。 通 过 使 用 
较 多 的 位 来 表示 数字 ， 虽 然 数值 计 算 时 的 误差 造成 的 影响 变 小 了 ， 但 计算 的 
处 理 成 本 、 内 存 使 用 量 却 相应 地 增加 了 ， 还 给 总 线 带 宽带 来 了 负 答 。 

关于 数值 精度 (用 几 位 数据 表示 数值 )， 我 们 已 经 知道 深度 学 习 并 不 那么 
需要 数值 精度 的 位 数 。 这 是 神经 网 络 的 一 个 重要 性 质 。 这 个 性 质 是 基于 神经 
网 络 的 健壮 性 而 产生 的 。 这 里 所 说 的 健壮 性 是 指 ， 比 如 ， 即 便 输 入 图 像 附 有 
一 些小 的 噪声 ， 输 出 结果 也 仍然 保持 不 变 。 可 以 认为 ， 正 是 因为 有 了 这 个 健 
壮 性 ， 流 经 网 络 的 数据 即便 有 所 “劣化 ”， 对 输出 结果 的 影响 也 较 小 。 

计算 机 中 表示 小 数 时 ， 有 32 位 的 单 精度 浮 点 数 和 64 位 的 双 精 度 浮 点 数 
等 格式 。 根 据 以 往 的 实验 结果 ， 在 深度 学 习 中 ， 即 便 是 16 位 的 半 精 度 浮 点 
数 (half float)， 也 可 以 顺利 地 进行 学 习 中 。 实 际 上 ，NVIDIA 的 下 一 代 GPU 
框架 Pascal 也 支持 半 精 度 浮 点 数 的 运算 ， 由 此 可 以 认为 今后 半 精 度 浮 点 数 将 
被 作为 标准 使 用 。 












































NVIDIA 的 Maxwell GPU 虽然 支持 半 精 度 浮 点 数 的 存储 (保存 数据 
的 功能 )， 但 是 运算 本 身 不 是 用 16 位 进行 的 。 下 一 代 的 Pascal 框 架 ， 
因为 运算 也 是 用 16 位 进行 的 ， 所 以 只 用 半 精 度 浮 点 数 进行 计算 ， 就 
望 实现 超过 上 一 代 GPU 约 2 倍 的 高 速 化 。 





以 往 的 深度 学 习 的 实现 中 并 没有 注音 数值 的 精度 ,不 过 Python 中 一 般 
使 用 64 位 的 浮 点 数 。NumPy 中 提供 了 16 位 的 半 精 度 浮 点 数 类 型 (不 过 ,只 
有 16 位 类 型 的 存储 ， 运 算 本 身 不 用 16 位 进行 )， 即便 使 用 NumpPy 的 半 精 度 
浮 点 数 ， 识 别 精度 也 不 会 下 降 。 相 关 的 论证 也 很 简单 ， 有 兴趣 的 读者 请 参考 
ch08/half float network.py, 
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关于 深度 学 习 的 位 数 缩减 ， 到 目前 为 止 已 有 符 干 研究 。 最 近 有 人 提出 了 
用 1 位 来 表示 权重 和 中 间 数 据 的 Binarized Neural Networks 7715 9". WTX 
现 次 度 学 习 的 高 速 化 ， 位 数 缩减 是 今后 必须 关注 的 一 个 评 题 ， 特 别 是 在 面 同 
租 入 式 应 用 程序 中 使 用 次 度 学 习 时 ， 位 数 缩减 非常 重要 。 








8.4 ”深度 学 习 的 应 用 案例 





前 面 ， 作 为 使 用 深度 学 习 的 例子 ,我 们 主要 讨论 了 手写 数字 识别 的 图 
像 类 别 分 类 问题 ( 称 为 “物体 识别 ”)。 不过， 深度 学 习 并 不 局 限于 物体 识别 ， 
还 可 以 应 用 于 各 种 各 样 的 问题 。 此 外 ， 在 图 像 、 语 首 、 日 然 合 言 等 各 个 不 同 
的 领域 ， 次 度 学 习 都 展现 了 优异 的 性 能 。 本 节 将 以 计算 机 视觉 这 个 领域 为 中 
心 ， 介绍 几 个 深度 学 习 能 做 的 事情 (应 用 )。 











8.4.1 物体 检测 


物体 检测 是 从 图 像 中 确定 物体 的 位 置 ， 并 进行 分 类 的 问题 。 如 图 8-17 所 
示 ， 要 从 图 像 中 确定 物体 的 种 类 和 物体 的 位 置 。 





8-17 ”物体 检测 的 例子 (引用 自 文献 [34]) 
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观察 图 8-17 可 知 ， 物 体检 测 是 比 物体 识别 更 难 的 问题 。 之 前 介绍 的 物体 
识别 是 以 整个 图 像 为 对 象 的 ， 但 是 物体 检测 需要 从 图 像 中 确定 类 别 的 位 置 ， 
而 且 还 有 可 能 存在 多 个 物体 。 

对 于 这 样 的 物体 检测 问题 ， 人 们 提出 了 多 个 基于 CNN 的 方法 。 这 些 方 
法 展示 了 非常 优 蜡 的 性 能 ， 并 且 证 明了 在 物体 检测 的 问题 上 ， 次 度 学 习 是 非 
常 有 效 的 。 

在 使 用 CNN 进行 物体 检测 的 方法 中 ， 有 一 个 叫 作 R-CNN 的 有 名 的 方 
法 。 图 8-18 显 示 了 R-CNN 的 处 理 流 。 








2. Extract region 3. Compute 4. Classify 
image proposals (~2k) CNN features regions 





8-18 R-CNN 的 处 理 流 (引用 自 文献 [35] ) 





希望 大 家 注意 图 中 的 “2.Extract region proposals”( 候 选区 域 的 提取 ) 和 
“3.Compute CNN features” (CNN 特征 的 计算 ) 的 处 理 部 分 。 这 里 ， 首 先 ( 以 
某 种 方法 ) 找 出 形似 物体 的 区 域 ， 然 后 对 提取 出 的 区 域 应 用 CNN 进行 分 类 。 
R-ONN 中 会 将 图 像 变 形 为 正方 形 ,或 者 在 分 类 时 使 用 SVM (OA EHL), 
实际 的 处 理 流 会 和 微 复 淋 一些, 不 过 从 宏观 上 看 ,也 是 由 刚才 的 两 个 处 理 ( 候 
选区 域 的 提取 和 CNN 特征 的 计算 ) 构 成 的 。 

在 R-CNN 的 前 半 部 分 的 处 理 一 一 候选 区 域 的 提取 (发 现形 似 目 标 物 体 的 
处 理 ) 中 ， 可 以 使 用 计算 机 视觉 领域 积累 的 各 种 各 样 的 方法 。R-CNN 的 论文 
中 使 用 了 一 种 被 称 为 Selective Search 的 方法 ， 最 近 还 提出 了 一 种 基于 CNN 
来 进行 候选 区 域 提取 的 Faster R-CNN 方 法 吧 ，Faster R-CNN 用 一 个 CNN 
来 完成 所 有 人 处理， 使 得 高 速 处 理 成 为 可 能 。 

















8.4.2 ”图 像 分 割 


图 像 分 割 是 指 在 像 系 水 平 上 对 图 像 进 行 分 类 。 如 图 8-19 所 示 ，, 使 用 以 像 











系 为 单位 对 各 个 对 象 分 别 着 色 的 监督 数据 进行 学 习 。 然 后 ， 在 推理 时 ， 对 输 
入 图 像 的 所 有 像 系 进行 分 类 。 








图 8-19 图 像 分 割 的 例子 (引用 自 文献 [34] ) : 左边 是 输入 图 像 ， 右 边 是 监督 用 的 带 标签 图 像 





之 前 实现 的 神经 网 络 是 对 图 像 整 体 进行 了 分 类 ， 要 将 它 沙 实 到 像素 水 平 
的 话 ， 该 怎么 做 呢 ? 

要 基于 神经 网 络 进行 图 像 分 割 ， 最 简单 的 方法 是 以 所 有 像素 为 对 象 ， 对 
每 个 像素 执行 推理 处 理 。 比 如 ， 准 备 一 个 对 某 个 矩形 区 域 中 心 的 像素 进行 分 
类 的 网 络 ， 以 所 有 像素 为 对 象 执行 推理 处 理 。 正 如 大 家 能 想到 的 ， 这 样 的 
方法 需要 按照 像素 数量 进行 相应 次 forward 处 理 ， 因 而 需要 耗费 大 量 的 时 间 
(正确 地 说 ， 卷 积 运算 中 会 发 生 重 复 计算 很 多 区 域 的 无 意义 的 计算 )。 为 了 解 
决 这 个 无 意义 的 计算 问题 ,有 人 提出 了 一 个 名 为 FCN (Fully Convolutional 
Network) 的 方法 。 该 方法 通过 一 次 forward 处 理 , 对 所 有 像素 进行 分 类 (图 
8-20), 

FON 的 字面 意思 是 “全 部 由 卷 积 层 构 成 的 网 络 "。 相 对 于 一 般 的 CNN 包 
含 全 连接 层 ，FCN 将 全 连接 层 蔡 换 成 发 挥 相同 作用 的 卷 积 层 。 在 物体 识别 
中 使 用 的 网 络 的 全 连接 层 中 ， 中 间 数 据 的 空间 容量 被 作为 排 成 一 列 的 节点 进 
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行 处 理 , 而 只 由 卷 积 层 构成 的 网 络 中 , 空间 容量 可 以 保持 原样 下 到 最 后 的 输出 。 

如 图 8-20 tan, FCN 的 特征 在 于 最 后 导入 了 扩大 空间 大 小 的 处 理 。 基 
于 这 个 处 理 ， 变 小 了 的 中 间 数 据 可 以 一 下 子 扩大 到 和 输入 图 像 一 样 的 大 小 。 
FON 最 后 进行 的 扩大 处理 是 基于 双 线 性 插值 法 的 扩大 ( 双 线 性 插值 扩大 )。 
FCN 中 ， 这 个 双 线 性 插值 扩大 是 通过 去 卷 积 ( 逆 卷 积 运 算 ) 来 实现 的 (细节 请 
参考 FCN fiie x 9"), 








forward/inference 


backward/learning 





全 连接 层 中 ， 输 出 和 全 部 的 输入 相连 。 使 用 卷 积 层 也 可 以 实现 与 此 
结构 完全 相同 的 连接 。 比 如 ， 针 对 输入 大 小 是 32x10x10( 通 道 
数 32、 高 10、 长 10) 的 数据 的 全 连接 层 可 以 替换 成 滤波 器 大 小 为 
32x10x10 的 卷 积 层 。 如 果 全 连接 层 的 输出 节点 数 是 100， 那 么 在 
卷 积 层 准 备 100 个 32x 10 x 10 的 滤波 器 就 可 以 实现 完全 相同 的 处 理 。 
像 这样 ， 全 连接 层 可 以 替换 成 进行 相同 处 理 的 卷 积 层 。 





8.4.5. 图像 标题 的 生成 


有 一 项 融合 了 计算 机 视觉 和 目 然 语言 的 有 趣 的 人 研究， 该 研究 如 图 8-21 所 
示 ， 给 出 一 个 图 像 后 ,会 目 动 生成 介绍 这 个 图 像 的 文字 (图 像 的 标题 )。 

给 出 一 个 图 像 后 ， 会 像 图 8-21 一 样 目 动 生成 表示 该 图 像 内 容 的 文本 。 比 
如 ,左上 角 的 第 一 幅 图 像 生 成 了 文本 “A person riding a motorcycle on a 
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Somewhat related to the image 





图 8-21 基于 深度 学 习 的 图 像 标题 生成 的 例子 (引用 自 文献 [38]) 





dirt road.”( 在 没有 铺 装 的 道路 上 骑 摩 托 车 的 人 )， 而 且 这 个 文本 只 从 该 图 像 
自动 生成 。 文 本 的 内 容 和 图 像 确实 是 一 致 的 。 并 且 , 令 人 惊讶 的 是 , RT “SA 
摩托 车 ”之 外 ， 连 “没有 铺 装 的 道路 ”都 被 正确 理解 了 

一 个 基于 深度 学 习 生 成 图 像 标 题 的 代表 性 方法 是 被 称 为 NIC (Neural 
-—— ———— — 
言 的 RNN (Recurrent Neural Network) jV, RNN Jess EZ IZ , 
E 

NIC 基 于 CNN 从 图 像 中 提取 特征 ， 并 将 这 个 特征 传 给 RNN。RNN 以 
CNN 提 取出 的 特征 为 初始 值 ， 递 归 地 生成 文本 。 这 里 ， 我 们 不 深入 讨论 技 
术 上 的 细节 ， 不 过 基本 上 NIC 是 组 合 了 两 个 神经 网 络 (CCNN 和 RNN ) 的 简单 
结构 。 基 于 NIC， 可 以 生成 怀 人 的 高 精度 的 图 像 标题 。 我 们 将 组 合 图 像 和 上 自 
然 语言 等 多 种 信息 进行 的 处 理 称 为 多 模 态 处 理 。 多 模 态 处 理 是 近年 来 备 受 关 
注 的 一 个 领域 。 

















A group of people 
shopping at an 
outdoor market. 


There are many 
vegetables at the 
fruit stand. 





RNN É R ÆR Recurrent (递归 的 )。 这 个 递归 指 的 是 神经 网 络 的 递归 
的 网 络 结构 。 根 据 这 个 递归 结构 ， 神 经 网 络 会 受到 之 前 生成 的 信息 
的 影响 ( 换 句 话说 ， 会 记忆 过 去 的 信息 )， 这 是 RNN 的 特征 。 比 如 ， 
生成 “我 * 这 个 词 之 后 ， 下 一 个 要 生成 的 词 受到 “我 ”这 个 词 的 影响 ， 
生成 了 “要 ”， 然 后 , 再 受到 前 面 生 成 的 “我 要 ”的 影响 , 生成 了 “睡觉 ” 
这 个 词 。 对 于 自然 语言 、 时 间 序 列 数 据 等 连续 性 的 数据 ，RNN 以 记 
忆 过 去 的 信息 的 方式 运行 。 





8.5 ”深度 学 习 的 未 来 





深度 学 习 已 经 不 再 局 限于 以 往 的 领域 ,开始 逐渐 应 用 于 各 个 领域 。 本 证 
REITER IL Maas STRESS AY BEE A ASE TE o 


8.5.1 图 像 风 格 变换 


有 一 项 研究 是 使 用 深度 学 习 来 “绘制 ”市 有 艺术 气息 的 画 。 如 图 8-23 所 示 ， 
输入 两 个 图 像 后 ， 会 生成 一 个 新 的 图 像 。 两 个 输入 图 像 中 ， 一 个 称 为 “内 容 
图 像 ”， 另 一 个 称 为 “风格 图 像 ”。 

如 图 8-23 所 示 ， 如 果 指 定 将 焚 高 的 绘画 风格 应 用 于 内 容 图 像 ， 深 度 学 习 
就 会 按照 指示 绘制 出 新 的 画作 。 此 项 研究 出 自 论文 “A Neural Algorithm of 

















图 8-23 ”基于 论文 “A Neural Algorithm of Artistic Style” 的 图 像 风 格 变换 的 例子 : 左上 
角 是 风格 图 像 ， 右 上 角 是 内 容 图 像 ， 下 面 的 图 像 是 新 生成 的 图 像 ( 图 像 引 用 自 文献 40] ) 





Artistic Style" 吧 ， 一 经 发 表 就 受到 全 世界 的 广泛 关注 。 

这 里 我 们 不 会 介绍 这 项 研究 的 详细 内 容 ， 只 是 叙述 一 下 这 个 技术 的 大 致 
框 染 ， 即 刚才 的 方法 是 在 学 习 过 程 中 使 网 络 的 中 间 数 据 近 似 内 容 图 像 的 中 间 
数据 。 这 样 一 来 ， 就 可 以 使 输入 图 像 近 似 内 容 图 像 的 形状 。 此 外 ， 为 了 从 风 
格 图 像 中 吸收 风格 ， 导 入 了 风格 矩阵 的 概念 。 通 过 在 学 习 过 程 中 减 小 风格 和 矩 
阵 的 偏差 ， 就 可 以 使 输入 图 像 接近 栎 高 的 风格 。 


8.5.2 ”图 像 的 生成 


刚才 的 图 像 风 格 变换 的 例子 在 生成 新 的 图 像 时 输入 了 两 个 图 像 。 不 同 于 
这 种 人 研究， 现在 有 一 种 研究 是 生成 新 的 图 像 时 不 需要 任何 图 像 (虽然 需要 事 
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先 使 用 大 量 的 图 像 进行 学 习 ， 但 在 “ 画 ” 新 图 像 时 不 需要 任何 图 像 )。 比 如 ， 
基于 深度 学 习 ， 可 以 实现 从 零 生 成 “卧室 ”的 图 像 。 图 8-24 中 展示 的 图 像 是 
基于 DCGAN (Deep Convolutional Generative Adversarial Network) “" Jy 
法 生成 的 卧室 图 像 的 例子 。 











8-24 基于 DCGAN 人 生成 的 新 的 卧室 图 像 ( 引 用 自 文献 [41] ) 





图 8-24 的 图 像 可 能 看 上 去 像 是 真 的 照片 , 但 其 实 这 些 图 像 都 是 基于 
DCGAN 新 生成 的 图 像 。 也 就 是 说 ，DCGAN 生成 的 图 像 是 谁 都 没有 见 过 的 
图 像 (学 习 数 据 中 没有 的 图 像 )， 是 从 零 生成 的 新 图 像 。 

能 画 出 以 假 乱 真 的 图 像 的 DCGAN 会 将 图 像 的 生成 过 程 模型 化 。 使 用 大 
量 图像 ( 比 如 ， 印 有 卧室 的 大 量 图像 ) 训 练 这 个 模型 ， 学 习 绪 束 后 ， 使 用 这 
个 模型 ， 就 可 以 生成 新 的 图 像 。 

DCGAN 中 使 用 了 深度 学 习 ， 其 技术 要 点 是 使 用 了 Generator( 生 成 者 ) 
fll Discriminator (识别 者 ) 这 两 个 神经 网 络 。Generator 生 成 近似 破 品 的 图 
f&, Discriminator 判别 它 是 不 是 真 图 像 ( 是 Generator 生 成 的 图 像 还 是 实际 
拍摄 的 图 像 )。 像 这 样 ， 通 过 让 两 者 以 竞争 的 方式 学 习 ，Generator 会 学 习 到 
更 加 精妙 的 图 像 作假 技术 ，Discriminator 则 会 成 长 为 能 以 更 高 精度 辨别 真 假 
的 鉴定 师 。 两 者 互相 切磋 、 共 同 成 长 ,这 是 GAN (Generative Adversarial 














OO 
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Network) 这 个 技术 的 有 趣 之 处 。 在 这 样 的 切磋 中 成 长 起 来 的 Generator w 
会 掌握 男 出 足以 以 假 乱 真 的 图 像 的 能 力 ( 或 者 说 有 这 样 的 可 能 )。 

之 前 我 们 见 到 的 机 器 学 习 问 题 都 是 被 称 为 监督 学 习 (supervised 
LN learning) 的 问题 。 这 类 问题 就 像 手写 数字 识别 一 样 ， 使 用 的 是 图 像 
An 。 数据 和 教师 标签 成 对 给 出 的 数据 集 。 不 过 这 里 讨论 的 问题 ， 并 没有 
给 出 监督 数据 ， 只 给 了 大 量 的 图 像 (图 像 的 集合 )， 这 样 的 问题 称 为 
无 监督 学 习 ( unsupervised learning )。 无 监督 学 习 虽 然 是 很 早 之 前 就 
开始 研究 的 领域 ( Deep Belief Network, Deep Boltzmann Machine 
等 很 有 名 )， 但 最 近似 乎 并 不 是 很 活跃 。 今 后 ， 随 着 使 用 深度 学 习 的 
DCGAN 等 方法 受到 关注 ， 无 监督 学 习 有 望 得 到 进一步 发 展 。 





8.53 Ams 

计算 机 代替 人 类 驾驶 汽车 的 自动 驾驶 技术 有 望 得 到 实现 。 除 了 汽车 制造 
商 之 外 ，IT 企 业 、 大 学 、 研 究 机 构 等 也 都 在 为 实现 自动 驾驶 而 进行 着 激烈 
的 竞争 。 自 动 芍 驶 需要 结合 各 种 技术 的 力量 来 实现 ， 比 如 决定 行驶 路 线 的 路 
线 计 划 (path plan) 技 术 、 照 相机 或 激光 等 传 感 技术 等 ,在 这 些 技术 中 ， 正 
确 识 别 周 围 环境 的 技术 据说 尤其 重要 。 这 是 因为 要 正确 识别 时 刻 变 化 的 环境 、 
自由 来 往 的 车 辆 和 行人 是 非常 困难 的 。 

如 果 可 以 在 各 种 环境 中 稳健 地 正确 识别 行驶 区 域 的 话 ， 实 现 自动 驾驶 可 
能 也 束 没 那么 遥远 了 。 最 近 ， 在 识别 周围 环境 的 技术 中 ， 冻 度 学 习 的 力量 备 
受 期 待 。 比 如 ， 基 于 CNN 的 神经 网 络 SegNet“， 可 以 像 图 8-25 那 样 高 精度 
地 识别 行驶 环境 。 

图 8-25 中 对 输入 图 像 进行 了 分 割 (像素 水 平 的 判别 )。 观 察 结 果 可 知 ， 在 
某 种 程度 上 正确 地 识别 了 道路 、 建 筑 物 、 人 和 行道、 树木、 车 辆 等 。 今 后 大 能 
基于 次 度 学 习 使 这 种 技术 进一步 实现 高 精度 化 、 高 速 化 的 话 ， 自 动 驾 驶 的 实 
用 化 可 能 也 驶 没 那么 遥远 了 。 
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28-25 ”基于 深度 学 习 的 图 像 分 割 的 例子 : XE. SA, BRM. ATES kein RR 
别 了 出 来 4 引用 自 文献 [43] ) 


8.5.4 Deep Q-Network( 强 化 学 习 ) 


就 像 人 类 通过 摸索 试验 来 学 习 一 样 ( 比 如 骑 目 行车 )， 让 计算 机 也 在 摸索 
试验 的 过 程 中 目 主 学 习 ， 这 称 为 强化 学 习 (reinforcement learning)。 强 化 学 
习 和 有 “教师 ”在 刁 边 教 的 “监督 学 习 ” 有 所 不 同 。 

强化 学 习 的 基本 框架 是 ， 代 理 (Agent) 根 据 环境 选择 行动 ， 然 后 通过 这 
个 行动 改变 环境 。 根 据 环境 的 变化 ， 代 理 获得 某 种 报酬 。 强 化 学 习 的 目的 是 
决定 代理 的 行动 方针 ， 以 获得 更 好 的 报酬 (图 8-26). 

图 8-26 中 展示 了 强化 学 习 的 基本 框 染 。 这 里 逢 要 注音 的 证， 报酬 并 不 是 
确定 的 ， 只 是 “预期 报酬 >。 比 如 ， 在 《超级 马里 奥 兄 第 》 这 球 电 子 游戏 中 ， 
让 马里 奥 回 右 移动 能 获得 多 少 报酬 不 一 定 是 明确 的 。 这 时 需要 从 游戏 得 分 ( 获 
得 的 便 币 、 消 灭 的 敌人 等 ) 或 者 游戏 结束 等 明确 的 指标 来 反 辐 计算， 决定 “ 预 
期 报酬 ">。 如 果 是 监督 学 习 的 话 ， 每 个 行动 都 可 以 从 “教师 ”那里 获得 正确 的 
评价 。 

在 使 用 了 诬 度 学 习 的 强化 学 习 方 法 中 ， 有 一 个 叫 作 Deep Q-Network( 通 
PRDQN) 的 方法 。 该 方法 基于 被 称 为 Q@ 学 习 的 强化 学 习 算法 。 这 里 省 略 
































报酬 ( 观测 ) 





图 8-26 ”强化 学 习 的 基本 框 染 : 代理 自主 地 进行 学 习 ， 以 获得 更 好 的 报酬 


Q 学 习 的 细节 ， 不 过 在 Q 学 习 中 ， 为 了 确定 最 合适 的 行动 ， 需 要 确定 一 个 被 
称 为 最 优 行动 价值 函数 的 函数 。 为 了 近似 这 个 函数 ，DQN 使 用 了 深度 学 习 
(CNN), 

在 DQN 的 研究 中 ， 有 让 电子 游戏 自动 学 习 ， 并 实现 了 超过 人 类 水 平 的 
操作 的 例子 。 如 图 8-27 所 示 , DON 中 使 用 的 CNN 把 游戏 图 像 的 帧 (连续 4 帧 ) 
作为 输入 ， 最终 输 出 游戏 手柄 的 各 个 动作 (控制 杆 的 移动 量 、 按 钮 操作 的 有 
无 等 ) 的 “价值 ”。 

之 前 在 学 习 电 子 游戏 时 ， 一 般 是 把 游戏 的 状态 (人 物 的 地 点 等 ) 事 先 提 
取出 来 ,作为 数据 给 模型 。 但 是 , 在 DQN 中 ， 如 图 8-27 所 示 , 输入 数据 
只 有 电子 游戏 的 图 像 。 这 是 DQN 值得 大 书 特 书 的 地 方 ， 可 以 说 大 幅 提 高 了 
DQN 的 实用 性 。 为 什么 呢 ? 因为 这 样 就 无 需 根据 每 个 游戏 改变 设置 ， 只 要 
给 DQN 游戏 图 像 就 可 以 了 。 实 际 上 , DON 可 以 用 相同 的 结构 学 习 《 吃 豆 人 入 
Atari 等 很 多 游戏 ， 甚 至 在 很 多 游戏 中 取得 了 超过 人 类 的 成 绩 。 























A T% E AlphaGo" 击败 围棋 冠军 的 新 闻 受 到 了 广泛 关注 。 这 个 
AlphaGo 拉 术 的 内 部 也 用 了 深度 学 习 和 强化 学 习 。AlphaGo 学 习 了 
3000 万 个 专业 棋 手 的 棋谱 ， 并 且 不 停 地 重复 自己 和 自己 的 对 战 ， 积 
过 了 大 量 的 学 习 经 验 。AlphaGo 和 和 DON 都 是 Google 的 Deep Mind 
公司 进行 的 研究 ， 该 公司 今后 的 研究 值得 密切 关注 。 





Convolution Convolution Fully connected Fully con nected 


& 





8-27 基于 Deep Q-Network 学 习 电 子 游戏 的 操作 。 输 入 是 电子 游戏 的 图 像 ， 经 过 摸索 
试验 ， 学 习 出 让 专业 玩家 都 自 愧 不 如 的 游戏 手柄 (操作 杆 ) 的 操作 手法 (引用 自 文 
FAK [44] ) 


8.6 ”小 结 





本 章 我 们 实现 了 一 个 (稍微 ) 深 层 的 CNN， 并 在 手写 数字 识别 上 获得 了 
超过 99 宛 的 高 识别 精度 。 此 外 ， 还 讲解 了 加 次 网 络 的 动机 ， 指 出 了 深度 学 习 
在 天 更 次 的 方 癌 前 进 。 之 后 ， 又 介绍 了 这 度 学 习 的 趋 执 和 应 用 和 案例， 以 及 对 
高 速 化 的 研究 和 代表 深度 学 习 未 来 的 研究 案例 。 

这 度 学 习 领 域 还 有 很 多 疝 未 揭晓 的 东西 ， 新 的 赋 究 正 一 个 接 一 个 地 出 现 。 
今后 ， 全 世界 的 研究 者 和 技术 专家 也 将 继续 积极 从 事 这 方面 的 研究 ， 一 定 能 
实现 日 前 无 法 想象 的 技术 。 

感谢 读者 一 直 读 到 本 书 的 最 后 一 革 。 如 果 读 者 能 通过 本 书 加 诬 对 深度 学 
习 的 理解 ， 体 会 到 深度 学 习 的 有 趣 之 处 ， 笔 者 将 深 感 采 辛 。 
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本 章 所 学 的 内 容 
对 于 大 多 数 的 问题 ， 都 可 以 期 待 通 过 加 深 网 络 来 提高 性 能 。 
在 最 近 的 图 像 识 别 大 赛 ILSVRC 中 ， 基 于 深度 学 习 的 方法 独占 鳌头 ， 
使 用 的 网 络 也 在 深化 。 
VGG, GoogLeNet, ResNet 等 是 几 个 著名 的 网 络 。 


基于 GPU、 分 布 式 学 习 、 位 数 精度 的 缩减 , 可 以 实现 深度 学 习 的 高 速 化 。 
深度 学 习 ( 神 经 网 络 ) 不 仅 可 以 用 于 物体 识别 ， 还 可 以 用 于 物体 检测 、 


深度 学 习 的 应 用 包括 图 像 标 题 的 生成 、 图 像 的 生成 、 强 化 学 习 等 。 最 近 ， 
深度 学 习 在 自动 驾驶 上 的 应 用 也 备 受 期 待 。 
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附录 A 
Softmax-with-Loss 层 的 计算 图 





这 里 ， 我 们 给 出 softmax 子 数 和 交 又 炉 误 差 的 计算 图 ， 来 求 它们 的 反问 
传播 。softmax PROPIOS softmax zi, AC Chit PKA Cross Entropy Error 层 ， 
两 者 的 组 合 称 为 Softmax-with-Loss 层 。 先 来 看 一 下 结果 ，Softmax-with- 
Loss 层 可 以 画 成 图 A-1 所 示 的 计算 图 。 








Cross 


Softmax Entropy 
Error 





A-1 Softmax-with-Loss 层 的 计算 图 
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图 A-1 的 计算 图 中 假定 了 一 个 进行 3 类 别 分 类 的 神经 网 络 。 从 前 面 的 层 
输入 的 是 (at 2, a3) ，softmax 层 输出 (yi, vo,y3)。 此 外 ， 教 师 标 签 是 (ti, te, ts), 
Cross Entropy Error 层 输出 损失 工 。 

如 图 A-1 所 示 ， 在 本 附录 中 ，Softmac-with-Loss 层 的 反 向 传播 的 结果 为 
(yi — ti, Y2 — te, Ys — ts)o 





A.l 正 向 传播 


图 A-1 的 计算 网 中 省 略 了 Softmax 层 和 Cross Entropy Error 层 的 内 容 。 
这 里 ， 我 们 来 画 出 这 两 个 层 的 内 容 。 
首先 是 Softmax 层 。softmax 国 数 可 由 下 式 表示 。 





exp(ax) 


Yk = -n 
和 exp(a:) (A.1) 





因此 ， 用 计算 图 表示 Softmax 层 的 话 ， 则 如 图 A-2 所 示 。 

图 A-2 的 计算 图 中 ， 指 数 的 和 (相当 于 式 (A.1) 的 分 母 ) 人 简写 为 $5， 最 终 
的 输出 记 为 (yi, Y2, Ys) 

接 下 来 是 Cross Entropy Error 层 。 交 叉 燃 误差 可 由 下 式 表 未 。 











L= -X tk log Yk (A2) 
k 





根据 式 (A.2)，Cross Entropy Error 层 的 计算 图 可 以 画 成 图 A-3 那 样 。 
图 A-3 的 计算 图 很 直观 地 表示 出 了 式 (A.2), 所 以 应 该 没有 特别 难 的 地 方 。 
下 一 节 ， 我 们 将 看 一 下 反 回 传播 。 
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S 
| 
exp(a,) + exp(a;) + exp(as) 


/ 


t, log yi + t: log y» + t; log y; L 
x 





A-3 Cross Entropy Error 层 的 计算 图 ( 仪 正 向 传播 ) 
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A.2 反问 传播 


首先 是 Cross Entropy Error 层 的 反问 传播 。Cross Entropy Error Jz Ay 
反问 传播 可 以 画 成 图 A-4 那 样 。 








A-4 ZXR RMSE 


求 这 个 计算 图 的 反 回 传播 时 ， 要 注意 下 面 几 点 。 


e 反 向 传播 的 初始 值 (图 A-4 中 最 右边 的 值 ) 是 1( 因 为 S$ —1). 

e“x” 节 点 的 反 向 传播 将 正 向 传播 时 的 输入 值 翻转 ， 乘 以 上 游 传 过 来 的 
导数 后 ， 再 传 给 下 游 。 

。 “十 ”节点 将 上 游 传 来 的 导数 原封 不 动 地 传 给 下 游 。 

e “log” 节 点 的 反 向 传播 遵从 下 式 。 


y = logz 
Oy 1 


Or cx 
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遵从 以 上 几 点 ， 就 可 以 轻松 求 得 Cross Entropy Error 的 反 回 传播 。 结 
pàti, — t2, — 15) 是 传 给 Softmax 层 的 反 向 传播 的 输入 。 


下 面 是 Softmax 层 的 反问 传播 的 步骤 。 因 为 Softmax 层 有 些 复 杂 ， 所 以 
我 们 来 逐一 进行 确认 。 





5 
ll 
exp(a,) + exp(a,) + exp(a;) 
+ / 
1 
exp(a,) 5 Yı 
ll 
exp(a,) 
ae exp(a,) o 
exp x t 
; pede 
1 Yi 
exp(a;) S 
exp(a;) 
A» l exp(a;) : S 
exp di t 
| 7 T 
exp(a;) 3 
a; | exp (a 3 ) m y 
exp Cam 
t3 
— Va 


前 面 的 层 (Cross Entropy Error 层 ) 的 反问 传播 的 值 传 过 来 。 


计算 图 
层 的 计 
ftmax—with—Loss 

So 
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exp(a,) u 
a exp 
exp(a;) u 
= exp 
exp(a;) 
exp(a3) 
Q3 


(exp, 











ap 二 
行 下 面 的 计 
会 进行 下 

过 程 中 会 进 

pU PTE 

值 翻转 后 相 乘 。 这 

可 传播 的 

99 让 点 将 正 | j 

“x "BE t 


(A.3) 
(ai) = -t1S 
exp(a1 


~ "1 exp(aa) 
i p 
"I oxp(a1) ox 
E. 
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p 
| 
exp(a,) + exp(a;) + exp(a,) — 


1 
— (ti +t, +t) 
exp(a,) P : 
S 
a, 、 exp(a,) 
exp, 
exp(a;) 
à, / exp(a;) 
exp 
exp(a;) 
Qs exp(a;) 
exp 








TE I] fe EISE Ar Scd Ha, WU RRR EE TEE Je eE LE TRUM 
EE, xx HA Y — XH Be IS) Ped BEL (S, 一 tz5, 149) 会 被 求 和 。 然 后 ， 
还 要 对 这 个 相 加 后 的 值 进行 “/” 节 点 的 反 向 传播 ， ESN S + te + ts), 
XE, (t, to, ts) 是 教师 标签 , 也 是 one-hot 向 量 。one-hot 向 量 意味 着 (t, to, ts) 
中 只 有 一 个 元 素 是 1， 其 余 都 是 0。 因 此 ，(ti, te, ts) 的 和 为 1。 
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5 
ll 
exp(a,) + exp(a;) + exp(a;) 
de (Lg d 
ES 
exp(a,) 
1 
S 
Bs exp(a,) 
exp 
exp(a;) 
s exp(a;) 
exp 
expla) 
Qs exp(a;) 
exp 





“4 ”节点 原封 不 动 地 传递 上 游 的 值 。 
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Yı 
exp(a,) l 
exp(a,) 
S 
1 X a 
exp ti 
Yı 
exp(a,) 
exp(a,) 
S 
2 X Ja 
exp a^ 
i Uy» 
S 
exp(a;) i 
3 
S 
3 > 
exp 
Y3 


j |. exp(ai) 
“x” 节 点 将 值 翻转 后 相 乘 。 这 里 ， 式 子 变形 时 使 用 了 人 = SPY, 
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5 
| 
exp(a,) + exp(a,) + exp(as) 








“exp” WAFA PI AS ZR UI M. o 


y = exp(x) 
(A.4) 
ou = exp(z) 





根据 这 个 式 子 ， 向 两 个 分 支 的 输入 和 乘 以 exp(ai) 后 的 值 就 是 我 们 要 求 
的 反 向 传播 。 用 式 子 写 出 来 的 话 ， 就 是 (4-45) exp(a1)， 整 理 之 后 为 
yi 一 t。 综 上 ， 我 们 推导 出 ， 正 向 传播 时 输入 是 a 的 节点 ， 它 的 反 向 传播 是 
yi — tro 剩 下 的 @、w 也 可 以 按照 相同 的 步 又 求 出 来 (结果 分 别 为 几 一 已 和 
y 一 如 )。 此 外 ， 除 了 这 里 介绍 的 3 类 别 分 类 外 ， 对 于 nn 类 别 分 类 的 情况 ， 也 
可 以 推导 出 同样 的 结 
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A.3 人 小结 


上 面 ， 我 们 画 出 了 Softmax-with-Loss 层 的 计算 图 的 全 部 内 容 ， 并 求 了 
它 的 反 回 传播 。 未 做 省 略 的 Softmax-with-Loss 层 的 计算 图 如 图 A-5 所 示 。 


Softmax 层 Cross Entropy Error 层 


ti log yi + t2 log ys «t3 log ys E 
<$< $$ X 


——4 log | 


=t; M =} —1 ; 
ts UM e 
7 f 
log ys ; 
log x 


一 





A-5 Softmax-with-Loss 层 的 计算 图 














图 A-5 的 计算 图 看 上 去 很 复杂 , 但 是 使 用 计算 图 逐个 确认 的 话 , 求 导 ( 反 
问 传 播 的 步骤 ) 也 并 没有 那么 复杂 。 除 了 这 里 介绍 的 Softmax-with-Loss 层 ， 
遇 到 其 他 看 上 去 很 难 的 层 ( 如 Batch Normalization 层 ) 时 ， 请 一 定 按 照 这 里 
的 步 又 思考 一 下 。 相 信 会 比 只 看 数学 式 更 容易 理解 。 
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